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内 容 简 介 


Apache HAWQ 是 一 个 SQL-on-Hadoop 产品 , 它 非常 适合 用 于 Hadoop 平台 上 快速 构建 数据 仓库 系统 .HAWQ 
具有 大 规模 并 行 处 理 、 完 善 的 SQL 兼容 性 、 支 持 存储 过 程 和 事务 、 出 色 的 性 能 表现 等 特性 ， 还 可 与 开源 数据 挖 
掘 库 MADlib 轻松 整合 ， 从 而 使 用 SQL 就 能 进行 数据 挖掘 与 机 器 学 习 。 

本 书 内 容 分 技术 解析 、 实 战 演练 与 数据 挖掘 三 个 部 分 共 27 章 。 技 术 解 析 部 分 说 明 HAWQ 的 基础 架构 与 功能 
特性 ， 包 括 安 装 、 连 接 、 对 象 与 资源 管理 、 查 询 优化 、 备 份 恢复 、 高 可 用 性 等 。 实 战 演练 部 分 用 一 个 完整 的 示例 ， 
说 明 如 何 使 用 HAWQ 取代 传统 数据 仓库 ， 包 括 ETL 处 理 、 自 动 调度 系统 、 维 度 表 与 事实 表 技术 、OLAP 与 数据 
的 图 形 化 表示 等 。 数 据 挖掘 部 分 用 实例 说 明 HAWQ 与 MADIib 整合 ， 实 现 降 维 、 协 同 过 滤 、 关 联 规 则 、 回 归 、 
聚 类 、 分 类 等 常见 数据 挖掘 与 机 器 学 习 方法 。 

本 书 适 合 数据 库 管 理 员 、 大 数据 技术 人 员 、Hadoop 技术 人 员 、 数 据 仓库 技术 人 员 ， 也 适合 高 等 院 校 和 
培训 机 构 相 关 专 业 的 师 生 教学 参考 。 
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推荐 序 


回想 过 去 几 年 ， 从 我 在 EMC (Greenplum) 启动 HAWQ 项 目 开 始 ， 到 全 球 多 个 世界 500 强 公 
司 使 用 HAWQ, 后 来 把 HAWQ 开源 到 Apache 社区 , 现在 又 基于 HAWQ 创立 “偶数 ” ETERS. 
今天 非常 高 兴 能 够 看 到 雪 迎 这 本 关于 HAWQ 的 书 出 现 。 

数据 仓库 的 架构 发 展 经 历 了 几 个 阶段 ， 第 一 代数 据 仓 库 是 基于 传统 交易 型 数据 库 的 共享 存储 

(Share Storage) 架构 ， 比 如 Oracle， 这 种 架构 的 缺点 是 基于 专 有 高 端 存储 ， 价 格 昂贵 ， 可 扩展 性 
差 ， 扩 展 到 十 几 个 节点 往往 就 会 撞 到 存储 的 瓶颈 。 

第 二 代数 据 仓 库 称 为 MPP (Massively Parallel Processing)， 采 用 无 共享 架构 (Share Nothing), 
最 早 商业 化 的 MPP 产品 为 20 世纪 80 年 代 出 现 的 Teradata. Teradata 当时 基于 大 型 机 和 专 有 硬件 。 
在 2000 年 左右 又 出 现 了 几 个 基于 普通 x86 服务 器 的 MPP 数据 仓库 创业 公司 ， 比 如 Greenplum、 
Vertica 和 Netezza， 这 几 个 创业 公司 后 来 分 别 被 巨头 EMC, HP 和 IBM 收购 。MPP 架构 解决 了 专 
有 硬件 的 问题 ， 可 扩展 性 也 得 到 了 一 定 的 提高 ， 一 般 可 以 扩展 到 100 节点 左右 。 这 种 架构 的 缺点 
是 在 执行 查询 时 ， 无 论 查 询 多 大 ， 所 有 节点 都 同样 执行 查询 中 均匀 划分 的 一 小 部 分 ， 在 节点 数 特 
别 多 的 时 候 ， 很 难 协调 保证 所 有 节点 的 状态 和 工作 都 是 均匀 一 致 的 。 就 像 几 个 人 一 起 干 活 ， 大 家 
分 工 协调 起 来 容易 ， 如 果 几 千 人 一 起 干 活 ， 人 与 人 之 间 的 不 同 以 及 协调 问题 就 会 突显 起 来 。 这 也 
是 MPP 架构 很 难 扩展 到 大 规模 的 一 个 重要 原因 。 

MPP 之 后 的 新 一 代数 据 仓库 (New Data Warehouse) 都 采取 了 存储 与 计算 分 离 架 构 。 正 是 因 
为 存储 与 计算 分 离 ， 计 算 可 以 访问 存储 在 任何 节点 的 数据 ， 并 在 任意 节点 进行 调度 ， 从 而 可 以 实 
现 高 可 扩展 性 。 存储 与 计算 分 离 的 另外 一 个 好 处 是 管理 的 简单 性 , 比如 扩容 不 再 需要 像 MPP 一 样 
重新 分 布 一 遍 数据 。 

新 一 代数 据 仓 库 根据 存储 实现 方式 的 不 同 也 可 以 分 为 三 大 类 : SQL on Hadoop、SQL on Object 
Store 以 及 SQL on Global Store。Hive、SparkSQL 和 HAWQ 2.x 版 本 属于 典型 的 SQL on Hadoop, 
存储 为 HDFS; 像 Amazon 的 Athena fil Snowflake 则 属于 SQL on Object Store， 数 据 存储 在 S3 对 
象 存储 中 。 一 般 SQL on Hadoop 和 SQL on Object Store 都 有 着 兼容 性 不 好 、 人 性 能 一 般 或 者 对 
Update/Delete 以 及 混合 工作 负载 支持 不 好 的 缺点 ， 但 HAWQ 因为 从 开始 就 定位 为 下 一 代 的 
Greenplum Database 和 语法 解析 器 等 源 于 Greenplum Database, 所 以 在 兼容 性 和 性 能 等 方面 表现 得 
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很 优秀 。HAWQ 社区 现在 正在 开发 的 HAWQ 新 版 本 将 会 创新 性 地 提出 SQL on Global Store 架构 ， 
HAWQ 将 会 具有 一 个 可 以 全 球 规模 部 署 、 多 数据 中 心 、 多 活 的 存储 。 这 样 HAWQ 就 可 以 更 加 高 
效 地 支持 各 种 传统 数据 仓库 可 以 实现 的 功能 ， 比 如 Update/Delete $, 还 可 以 更 好 地 支持 传统 数据 
仓库 做 不 到 的 功能 ， 比 如 多 数据 中 心 、 多 活 等 ， 从 而 彻底 取代 传统 数据 仓库 。 





雪 迎 的 这 本 书 很 好 地 介绍 了 HAWQ 的 基本 技术 ， 并 从 用 户 角度 详细 给 出 了 如 何 使 用 HAWQ 


来 构建 数据 仓库 、 进 行 机 器 学 习 和 数据 挖掘 的 方法 ， 非 常 全 面 ， 是 一 本 很 好 的 HAWQ 入 门 书籍。 


人 了 


[智能 的 流行 以 及 数据 驱动 的 方法 是 企业 能 够 在 新 的 数据 和 AI 时 代 取 得 成 功 的 关键 ， 相 信 这 





本 书 的 读者 一 定 会 从 中 受益 ， 掌 握 最 新 的 技术 发 展 趋势 与 潮流 。 


Apache HAWQ 创始 人 
常 雷 
2018 年 1 月 于 北京 
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从 Bill Inmon 在 1991 年 提出 数据 仓库 的 概念 ， 至 今 已 有 27 的 时 间 。 在 这 期 间 人 们 所 面 对 的 
数据 ， 以 及 处 理 数据 的 方法 都 发 生 了 翻天 覆 地 的 变化 。 随 着 互联 网 和 移动 终端 等 应 用 的 普及 ， 运 
行 在 单机 或 小 型 集群 上 的 传统 数据 仓库 不 再 能 满足 数据 处 理 要 求 ， 以 Hadoop 及 其 生态 圈 组 件 为 
代表 的 新 一 代 分 布 式 大 数据 处 理 平台 逐渐 流行 。 

尽管 大 多 数 人 都 在 讨论 某 种 技术 或 者 架构 可 能 会 胜 过 另 一 种 , 而 我 更 倾向 于 从 “Hadoop 与 数 
据 仓库 密切 结合 ”这 个 角度 来 探讨 问题 。 一 方面 企业 级 数据 仓库 中 已经 积累 了 大 量 的 数据 和 应 用 
程序 ， 它 们 仍然 在 决策 支持 领域 发 挥 着 至 关 重 要 的 作用 : 另 一 方面 ， 传 统 数据 仓库 从 业 人 员 的 技 
术 水 平和 经 验 也 在 逐步 提升 。 如 何 才能 使 积累 的 大 量 历史 数据 平滑 过 渡 到 Hadoop 上 ， 并 让 熟悉 
传统 数据 仓库 的 技术 人 员 能 够 有 效 地 利用 已 有 的 知识 ， 可 以 在 大 数据 处 理 平台 上 一 展 身手 ， 才 是 
一 个 或 待 解决 的 问题 。 

虽然 伴随 着 大 数据 的 概念 也 出 现 了 以 MongoDB, Cassandra 为 代表 的 NoSQL 产品 , 但 不 可 和 否 
认 ，SQL 仍然 是 数据 库 、 数 据 仓库 中 常 使 用 的 开发 语言 ， 也 是 传统 数据 库 工 程 师 或 DBA 的 必 会 
语言 ， 从 它 出 现 至 今 一 直 被 广泛 使 用 。 首 先 ，SQL 有 坚实 的 关系 代数 作为 理论 基础 ， 经 过 几 十 年 
的 积累 ， 查 询 优化 器 也 已 经 相当 成 熟 。 再 者 ， 对 于 开发 者 ，SQL 作为 典型 的 非 过 程 语言 ， 其 语法 
相对 简单 ， 但 语义 却 相当 丰富 。 据 统计 95% 的 数据 分 析 问 题 都 能 用 SQL 解决 ， 这 是 一 个 相当 惊人 
的 结论 。 那 么 SQL 怎样 才能 与 Hadoop 等 大 数据 技术 结合 起 来 ， 既 能 复 用 已 有 的 技能 ， 又 能 有 效 
处 理 大 规模 数据 呢 ? 在 这 样 的 需求 背景 下 ， 近 年 来 涌现 出 越 来 越 多 的 SQL-on-Hadoop 软件 ， 比 如 
从 早期 的 Hive 到 Spark SQL. Impala, Kylin 等 ， 本 书 所 论述 的 就 是 众多 SQL-on-Hadoop 产品 中 
的 一 员 一 一 HAWQ。 

我 最 初 了 解 到 HAWQ 是 在 BDTC 2016 大 会 上 ，Apache HAWQ 的 创始 人 常 雷 博士 介绍 了 该 
项 目 。 他 的 演讲 题目 是 “以 HAWQ 轻松 取代 传统 数据 仓库 ” 这 正 是 我 的 兴趣 所 在 。HAWQ 支持 
事务 、 性 能 表现 优良 ， 关 键 是 与 SQL 的 兼容 性 非常 好 ， 甚 至 支持 存储 过 程 。 对 于 传统 数据 仓库 的 
开发 人 员 ， 使 用 HAWQ 转向 大 数据 平台 ， 学 习 成 本 应 该 是 比较 低 的 。 我 个 人 认为 HAWQ 更 适合 
完成 Hadoop 上 的 数据 仓库 及 其 数据 分 析 与 挖掘 工作 。 


本 书 内 容 


一 年 来 ， 我 一 直 在 撰写 HAWQ 相关 的 文章 和 博客 ， 并 在 利用 HAWQ 开发 Hadoop 数据 仓库 
方面 做 了 一 些 基础 的 技术 实践 ， 本 书 就 是 对 这 些 工 作 的 系统 归纳 与 总 结 。 全 书 分 为 技术 解析 、 实 
战 演练 、 数 据 挖掘 三 个 部 分 ， 共 27 章 。 

技术 解析 部 分 说 明 HAWQ 的 基础 架构 与 功能 特性 ， 包 括 安装 部 署 、 客 户 端 与 服务 器 连接 、 
数据 库 对 象 与 资源 管理 、 查 询 优化 、 备 份 恢复 、 高 可 用 性 等 。 


HAWQ 数据 仓库 与 数据 挖掘 实战 


实战 演练 部 分 通过 一 个 简单 而 完整 的 示例 ， 说 明 使 用 HAWQ 设计 和 实现 数据 仓库 的 方法 ， 
包括 初始 和 定期 ETL 处 理 、 自 动 调度 系统 、 维 度 表 与 事实 表 技 术 、 联 机 分 析 处 理 与 数据 的 图 形 化 
表示 等 。 这 部 分 旨 在 将 传统 数据 仓库 建 模 、SQL 开发 的 简单 性 与 大 数据 技术 相 结合 ， 快 速 、 高 效 
地 建立 可 扩展 的 数据 仓库 及 其 应 用 系统 。 

数据 挖掘 部 分 结合 应 用 实例 ， 讨 论 将 HAWQ 与 MADIib 整合 ，MADIlib 是 一 个 开源 机 器 学 习 
库 ， 提 供 了 精确 的 数据 并 行 实现 、 统 计 和 机 器 学 习 方法 ， 可 以 对 结构 化 和 非 结 构 化 数据 进行 分 析 。 
它 的 主要 目的 是 可 以 非常 方便 地 加 载 到 数据 库 中 ， 扩 展 数据 库 的 分 析 功 能 。MADIlib 仅 用 SQL 查 
询 就 能 做 简单 的 数据 挖掘 与 机 器 学 习 ， 实 现 和 矩阵 分 解 、 降 维 、 关 联 规则 、 回 归 、 聚 类 、 分 类 、 图 
算法 等 常见 数据 挖掘 方法 。 这 也 是 HAWQ 的 一 大 亮点 。 


本 书 读者 


本 书 适合 数据 库 管理 员 、 数 据 仓库 技术 人 员 、Hadoop 或 其 他 大 数据 技术 人 员 ， 也 适合 高 等 院 
校 和 培训 学 校 相关 专业 的 师 生 教学 参考 。 
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第 一 部 分 
HAWQ 技术 解析 


S15 


L: | = 
«HAWQGillih > 


HAWQ 的 全 称 为 Hadoop With Query, 即 带 查询 的 Hadoop, 是 一 个 出 色 的 SQL-on-Hadoop 
解决 方案 ， 尤 其 适合 构建 Hadoop 数据 仓库 。 它 最 初 由 Pivotal 公司 开发 ， 后 来 贡献 给 Apache 
WEK, WARE CATIA S AREAS HAWQ 的 一 个 概要 介绍 。 首 先 对 SQL-on-Hadoop 的 功能 需 
求 有 个 基本 认识 ， 然 后 以 此 作为 参照 ， 说 明 HAWQ 的 功能 特性 。 为 了 更 好 地 使 用 HAWQ, 我 
们 需要 了 解 它 的 整体 系统 架构 , 以 及 各 组 件 所 起 的 作用 。 本 章 最 后 将 阐述 选择 HAWQ 的 理由 。 


SQL-on-Hadoop 


过 去 几 年 里 ,许多 企业 和 开发 者 已 慢 慢 接受 Hadoop 生态 系统 ， 将 它 用 作 大 数据 分 析 堆 栈 
的 核心 组 件 。 尽 管 Hadoop 生态 系统 的 MapReduce 组 件 是 一 个 强大 的 典范 , 但 随 着 时 间 的 推移 ， 
MapReduce 自身 不 再 是 连接 存储 在 Hadoop 生态 系统 中 的 数据 的 最 简单 途径 。 企 业 需 要 一 种 更 
简单 的 方式 来 访问 要 查询 、 分 析 甚 至 要 执行 深度 挖掘 的 数据 ， 以 便 发 现存 储 在 Hadoop 中 的 所 
有 数据 的 真正 价值 。SQL 以 其 扎实 的 理论 基础 、 简 单 的 语法 、 丰 富 的 语义 得 到 广泛 应 用 ， 在 
帮助 各 类 用 户 发 掘 数据 的 商业 价值 领域 具有 很 长 历史 。 

Hadoop 上 的 SQL 支持 一 开始 是 Apache Hive， 一 种 类 似 于 SQL 的 查询 引擎 ， 它 将 有 限 的 
SQL 方言 编译 到 MapReduce 中 。Hive 对 MapReduce 的 完全 依赖 会 导致 严重 的 查询 延迟 , 因此 
其 主要 适用 场景 是 批 处 理 模式 。 另 外 ， 尽 管 Hive 对 于 SQL 的 支持 是 好 的 开端 ， 但 对 SQL 的 
有 限 支持 意味 着 精通 SQL 的 用 户 忙于 企业 级 使 用 场景 时 将 遇 到 严重 的 限制 。 它 还 暗示 着 庞大 
的 基于 标准 SQL 的 工具 生态 系统 无 法 利用 Hive。 值 得 庆幸 的 是 ,在 为 SQL-on-Hadoop 提供 更 
好 的 解决 方案 方面 已 取得 长 足 进展 。 除 Hive 外 , 当前 常见 的 框架 已 经 有 HAWQ、1mpala、Presto、 
Spark SQL. Drill, Kylin 等 很 多 种 。 
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1.1.1 对 SQL-on-Hadoop 的 期 待 


K 1-1 显示 了 一 流 的 SQL-on-Hadoop 方案 需要 具有 的 功能 以 及 这 些 功能 给 使 用 者 带 来 的 
好 处 。 从 传统 的 意义 上 说 ， 这 些 功 能 中 的 大 部 分 在 分 析 型 数据 仓库 中 都 能 找到 。 














表 1-1 一 流 SQL-on-Hadoop 方案 应 有 功能 及 带 来 的 业务 好 处 























功能 业务 好 处 

丰富 且 合 规 的 SQL 支持 功能 强大 的 可 移植 SQL 应 用 程序 ， 能 够 利用 基于 SQL 的 数据 分 
析 和 数据 可 视 化 工具 的 大 型 生态 系统 

符合 TPC-DS 规格 TPC-DS 帮助 确保 所 有 级 别 的 SQL 查询 得 到 处 理 ， 从 而 广泛 支持 
各 种 使 用 场景 并 避免 企业 级 实施 期 间 出 现 意外 

灵活 高 效 的 表 连 接 简化 应 用 系统 开发 ， 提 高 数据 仓库 查询 性 能 

线性 可 扩展 性 平衡 数据 仓库 工作 负载 

一 体 化 深度 挖掘 与 机 器 学 习 用 SQL 实现 所 需 的 统计 学 、 数 学 和 机 器 学 习 算法 

外 部 数据 处 理 能 力 有 效 利用 多 种 外 部 数据 资产 ， 降 低 数 据 重 构成 本 

高 可 用 性 与 容错 确保 业务 连续 性 ， 保 证 数据 仓库 的 关键 业务 分 析 











原生 Hadoop 文件 格式 支持 简化 ETL 过 程 ， 减 少数 据 迁 移 


1.1.2. SQL-on-Hadoop 的 实现 方式 


1. Hive 

Hive 建立 在 Hadoop 的 分 布 式 文件 系统 CHDFS) 和 MapReduce 之 上 。 为 了 缩小 Hive 与 
传统 SQL 引擎 之 间 的 性 能 落差 ， 现 在 已 经 可 以 通过 MapReduce, Spark 或 Tez 等 多 种 计算 框 
架 执 行 查询 。Hive 提供 一 种 称 为 HiveQL 的 语言 ， 允 许 用 户 进 行 类 似 于 SQL 的 查询 。Hive 的 
体系 结构 如 图 1-1 所 示 。 
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图 1-1 Hive 体系 结构 


2. Spark SQL 

Spark SQL 是 Spark 处 理 结构 化 数据 的 程序 模块 。 它 将 SQL 查询 与 Spark 程序 无 颖 集成 ， 
可 以 将 结构 化 数据 作为 Spark 的 RDD 进行 查询 。RDD 的 全 称 为 Resilient Distributed Datasets, 
即 弹性 分 布 式 数据 集 ， 是 Spark 基本 的 数据 结构 。Spark 使 用 RDD 作为 分 布 式 程序 的 工作 集 
合 ， 提 供 一 种 分 布 式 共 享 内 存 的 受 限 形式 。RDD 是 只 读 的 ， 对 其 只 能 进行 创建 、 转 化 和 求 值 
等 操作 。Spark SQL 的 体系 结构 如 图 1-2 所 示 。 
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1-2. Spark SQL 体系 结构 


Dataset 是 一 个 分 布 式 的 数据 集合 。 Dataset API 是 Spark 1.6 中 新 增 的 编程 接口 , 利用 Spark 
SQL 执行 引擎 优化 器 提供 RDD 的 功能 。Dataset 可 以 从 JVM 对 象 中 构建 ， 然 后 使 用 map、 
flatMap、filter 等 方法 进行 转换 。DataFrame 是 被 组 织 为 命名 列 的 Dataset， 其 概念 与 关系 数据 
库 中 的 表 类 似 , 但 底层 结构 更 加 优化 。DataFrame 可 以 从 结构 化 的 数据 文件 、Hive 表 、 外 部 数 
据 库 或 者 已 有 的 RDD 中 构建 。 

3. Impala 

Impala 是 一 个 运行 在 Hadoop 上 的 大 规模 并 行 处 理 (Massively Parallel Processing ，MPP) 
查询 引擎 ， 提 供 对 Hadoop 集群 数据 的 高 性 能 、 低 延迟 的 SQL 查询 ， 使 用 HDFS 作为 底层 存 
储 。 对 查询 的 快速 响应 使 交互 式 查询 和 对 分 析 查 询 的 调 优 成 为 可 能 ， 而 这 些 在 针对 处 理 长 时 间 
批 处 理 作 业 的 SQL-on-Hadoop 传统 技术 上 是 难以 完成 的 。Impala 可 与 Hive 共享 数据 库 表 ， 并 
H Impala 与 HiveQL 的 语法 兼容 。 

Impala 体系 结构 如 图 1-3 所 示 。Impala 服务 器 由 不 同 的 守护 进程 组 成 , 每 种 守护 进程 运行 
在 Hadoop 集群 中 的 特定 主机 上 。 其 中 ，Impalad、Statestored、Catalogd 三 个 守护 进程 在 其 架 
构 中 扮演 主要 角色 。 
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图 1-3 Impala 体系 结构 


4. HAWQ 

HAWQ 引擎 利用 Greenplum 数据 仓库 的 代码 基础 和 深度 数据 管理 专业 知识 构建 ,在 HDFS 
中 存储 底层 数据 。HAWQ 使 用 业内 唯一 一 款 专 为 HDFS 量 身 打 造 的 、 基 于 成 本 的 查询 优化 框 
架 来 增强 其 性 能 。 与 Impala 类 似 ，HAWQ 也 采用 MPP 架构 ， 使 用 户 能 够 获 益 于 经 过 锤炼 的 
基于 MPP 的 分 析 功 能 及 其 查询 性 能 ， 同 时 有 效 利用 HDFS 的 分 布 式 存储 、 容 错 机 制 、 机 架 感 
知 等 功能 ， 兼 顾 了 低 延 时 与 高 扩展 。HAWQ 可 与 其 他 传统 SQL-on-Hadoop 引擎 共存 于 一 个 分 
析 堆 栈 。 图 1-4 A Pivotal 官方 文档 ， 显 示 了 HAWQ 与 Greenplum 的 联系 与 区 别 。 


Pivotal Greenplum Database Pivotal HAWQ: SQL on Hadoop 





图 14 将 基于 MPP 的 分 析 数 据 仓库 用 于 SQL-on-Hadoop 方案 


1.2. HAWQ 简介 


HAWQ 是 一 个 Hadoop 原生 大 规模 并 行 SQL 分 析 引 擎 ， 针 对 的 是 分 析 型 应 用 。 它 和 其 他 
关系 型 数据 库 类 似 ， 接 受 SQL， 返 回 结果 集 。 


1.2.1 历史 与 现状 


(1) 想法 和 原型 系统 (2011 年 ) : GOH 阶段 (Greenplum Database On HDFS) 。 

(2) HAWQ 1.0 Alpha (2012 年 ) : 多 个 国外 大 型 客户 试用 ， 当 时 客户 性 能 测试 是 Hive 
的 数 百 倍 ， 促 进 了 HAWQ 1.0 作为 正式 产品 发 布 。 

G) HAWQ 1.0 GA (2013 年 初 ) : 改变 了 传统 MPP 数据 库 架 构 ， 包 括 事 务 、 容 错 、 元 
数据 管理 等 。 

(4) HAWQ 1.X 版 本 (2014-2015 Q2) : 增加 了 一 些 企业 级 需要 的 功能 ， 比 如 Parquet 
存储 、 新 的 优化 器 、Kerberos 支持 、Ambari 安装 部 署 等 。 

(5) HAWQ 2.0 Alpha 发 布 并 成 为 Apache 孵化 器 项 目 : 针对 云 环境 的 系统 架构 重新 设计 ， 
新 增 数 十 个 高 级 功能 ， 包 括 弹性 执行 引擎 、 高 级 资源 管理 、YARN 集成 、 快 速 扩容 等 。 当 前 
最 新 版 本 是 HAWQ++ 2.2.0。 


1.2.2 ”功能 特性 


虽然 HAWQ 采用 MPP 架构 ， 但 它 具 有 很 多 传统 大 规模 并 行 处 理 数据 库 没 有 的 特性 及 功 
能 。 让 我 们 考虑 SQL-on-Hadoop 的 各 个 方面 ， 并 将 之 与 HAWQ 相 比 较 。 

1. 丰富 且 完 全 兼容 的 SQL 标准 

数据 仓库 项 目的 数据 源 往往 是 多 种 异 构 数据 库 , 而 且 很 多 时 候 我 们 不 能 直 连 源 库 , 得 到 的 
只 是 从 源 库 导出 的 SQL 脚本 。 在 这 种 情况 下 ， 对 SQL 的 兼容 性 要 求 尤为 重要 。HAWQ 百 分 
之 百 符合 ANSI SQL 规范 并 且 支 持 SQL 92、99、2003 OLAP, 以 及 基于 Hadoop 的 PostgreSQL. 
它 包 含 关联 子 查询 、 窗 口 函数 、 分 析 函 数 、 标 量 函 数 与 聚合 函数 的 功能 ， 并 且 支 持 SQL UDF。 
由 于 HAWQ 系统 完全 符合 SQL 规范 ， 因 此 使 用 HAWQ 编写 的 分 析 应 用 程序 可 以 轻松 移植 到 
其 他 符合 SQL 规范 的 数据 引擎 上 ， 反 之 亦 然 。 用 户 可 通过 ODBC 和 JDBC 连接 HAWQ。 

2. TPC-DS 合 规 性 

TPC-DS 针对 具有 各 种 操作 要 求 和 复杂 性 的 查询 定义 了 99 个 模板 ， 比 如 点 对 点 、 报 表 、 
迭代 、OLAP、 数 据 挖 气 等 。 成 熟 的 基于 Hadoop 的 SQL 系统 需要 支持 和 正确 执行 多 数 此 类 查 
询 ， 以 解决 各 种 不 同 分 析 工 作 和 使 用 场景 中 的 问题 。 基 准 测试 通过 TPC-DS 中 的 99 个 模板 生 
成 的 111 个 查询 来 执行 。 依 据 符合 可 优化 、 可 执行 两 个 要 求 的 查询 个 数 ， 图 1-5 所 示 的 条 形 图 
显示 了 一 些 基 于 SQL-on-Hadoop 常见 系统 的 合 规 情况 。 
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图 1-5 JA TPC-DS 套件 返回 的 已 完成 查询 个 数 


以 Greenplum 代码 库 提供 的 扩展 SQL 支持 能 力 为 基础 ，HAWQ 完成 了 全 部 111 个 查询 。 

3. 可 实现 灵活 高 效 的 连接 

HAWQ 吸收 了 先进 的 基于 成 本 的 SQL 查询 优化 器 ， 自 动 生成 执行 计划 ， 可 优化 使 用 
Hadoop 集群 资源 , 还 可 以 针对 特定 环境 配置 优化 器 内 的 成 本 函数 , 如 版 本 、 硬件 、 CPU、 IOPS 
等 。HAWQ 声称 ， 能 够 为 涉及 50 多 个 关联 表 的 查询 快速 找到 理想 的 查询 计划 。 这 让 用 户 能 够 
以 HAWQ 提高 用 于 大 量 数据 分 析 的 传统 企业 数据 仓库 工作 负载 的 性 能 。 

4. 利用 线性 可 扩展 加 速 Hadoop 查询 


HAWQ 为 PB 级 数据 操作 专门 设计 。 数 据 直接 存储 在 HDFS 上 ， 并 且 其 SQL 查询 优化 器 
已 经 为 基于 HDFS 的 文件 系统 性 能 特征 进行 过 细致 的 优化 。 

SQL-on-Hadoop 的 主要 设计 目标 之 一 是 在 Hadoop 上 执行 SQL 连接 时 最 大 限度 地 降低 数 
据 传 输 开销 。HAWQ 采用 Dynamic pipelining 技术 解决 这 一 关键 问题 。Dynamic pipelining 是 

-种 并 行 数据 流 框架 ， 结 合 了 以 下 技术 : 

e 适应 性 高 速 UDP 互联 。 
针对 大 数据 量 调整 操作 运行 时 执行 环境 。 
运行 时 资源 管理 ， 确 保 查 询 完 整 性 。 
无 颖 数据 分 配 机 制 ， 将 经 常用 于 特定 查询 的 部 分 数据 集 集 中 处 理 。 
使 IP 查找 真正 可 扩展 。 


HAWQ 官方 的 性 能 分 析 显 示 ， 对 于 Hadoop 上 的 分 析 与 数据 仓库 工作 场景 ，HAWQ 要 比 
现 有 Hive 查询 引擎 快 一 至 两 个 数量 级 。 

5. 一 体 化 深度 分 析 与 机 器 学 习 

数据 分 析 通 常 需要 使 用 统计 学 、 数 学 和 机 器 学 习 算法 ， 如 聚 类 或 主 成 分 分 析 等 ， 这 正在 成 
为 SQL-on-Hadoop 方案 的 基本 要 求 。HAWQ 利用 开源 机 器 学 习 库 MADIib 提供 这 些 功能 ， 通 
it UDF 扩展 SQL 能 力 。 对 于 有 此 类 需求 的 用 户 来 说 , 将 使 其 可 以 在 通常 的 分 析 型 工作 中 嵌入 
高 级 机 器 学 习 功 能 。 

6. 外 部 数据 处 理 能 力 

SQL-on-Hadoop 需要 联合 外 部 源 数 据 , 将 各 种 来 源 的 数据 结合 起 来 进行 分 析 , 提供 更 多 灵 
活性 。 数 据 可 以 跨 其 他 数据 仓库 、HDFS、HBase 以 及 Hive 实例 ， 且 需要 实施 固有 的 并 行 性 。 
HAWQ 通过 名 为 Pivotal eXtension Framework (PXF) 的 模块 提供 外 部 数据 访问 能 力 。PXF 提 
供 的 特色 功能 包括 : 


© PXF 使 用 智能 抓 取 ， 其 过 滤器 下 推 到 Hive 和 HBase。 查 询 工作 负载 被 下 推 到 联合 数 
据 堆栈 ， 从 而 尽 可 能 减少 数据 移动 ， 并 改善 延迟 性 能 。 

€ = PXF 提供 框架 API, 以 便 用 户 为 其 自 有 数据 堆栈 开发 新 的 连接 器 ,进而 增强 数据 引擎 
的 松 耦 合 ， 避 免 数据 重 构 操 作 。 


€ PXF 可 利用 ANALYZE 收集 外 部 数据 的 统计 资料 。 这 样 就 可 以 通过 基于 成 本 的 优化 
器 优化 联合 数据 源 统计 信息 ， 帮 助 构建 更 高 效 的 查询 。 

7. 高 可 用 性 与 容错 

HAWQ 支持 数据 库 事务 ， 人 允许 用 户 隔 离 Hadoop 上 的 并 行 活动 并 在 出 错时 进行 回 滚 。 
HAWQ 的 容错 服务 、 可 靠 性 和 高 可 用 三 个 特点 能 容忍 磁盘 级 与 节点 级 故障 。 这 些 能 力 可 确保 
业务 的 连续 性 ， 同 时 增加 了 将 更 多 关键 业务 分 析 迁 移 到 HAWQ 上 运行 的 可 能 。 

8. 原生 Hadoop 文件 格式 支持 

HAWQ 支持 AVRO, Parquet 和 原生 的 HDFS 文件 格式 , 在 很 大 程度 上 降低 了 数据 摄取 期 
间 ETL 的 复杂 性 。 对 ETL 和 数据 移动 需求 的 减少 直接 降低 了 分 析 解 决 方案 的 成 本 。 

9. 通过 Apache Ambari 进行 原生 的 Hadoop 管理 

HAWOQ 使 用 Apache Ambari 作为 管理 和 配置 的 基础 。 合 适 的 Ambari 插件 可 以 使 得 HAWQ 
像 其 他 通用 Hadoop 服务 一 样 被 Ambari 管理 , IT 管理 团队 不 再 需要 Hadoop 与 HAWQ 两 套 管 
理 界面 。 这 使 得 用 户 专注 于 功能 实现 ， 最 小 化 配置 和 管理 等 技术 支持 所 需 的 工作 量 。 同 时 ， 
Ambari 是 完全 开源 的 Hadoop 管理 和 配置 工具 ， 消 除了 供应 商 绑 定 风险 。 

10. Hortonworks Hadoop 兼容 

HAWQ 可 以 与 Hortonworks HDP 大 数据 体系 无 颖 兼容 , 使 用 户 在 已 经 投资 的 Hortonworks 
大 数据 平台 上 利用 HAWQ 提供 的 所 有 功能 。 

11. HAWQ 的 其 他 主要 特性 
弹性 执行 引擎 : 可 根据 查询 大 小 动态 决定 执行 查询 使 用 的 节点 个 数 。 
支持 多 种 分 区 方法 及 多 级 分 区 : 如 List 分 区 和 Range 分 区 。 





多 级 资源 管理 : 可 与 外 部 资源 管理 器 YARN 集成 ， 也 可 以 自己 管理 CPU, Memory 
等 资源 ， 支 持 多 级 资源 队列 。 
支持 多 种 第 三 方 工具 : 如 Tableau、SAS 等 。 





HAWQ 系统 架构 


HAWQ 结合 了 MPP 数据 库 的 关键 技术 和 Hadoop 的 可 扩展 性 ， 在 原生 的 HDFS 上 读 写 数 
据 。MPP 架构 使 HAWQ 表现 出 超越 其 他 SQL-on-Hadoop 解决 方案 的 查询 性 能 ，Hadoop 又 为 
HAWQ 提供 了 传统 数据 库 所 不 具备 的 线性 扩展 能 


1.3.1 系统 架构 


图 1-6 给 出 了 一 个 典型 的 HAWQ 集群 系统 架构 。 通 常 HAWQ 集群 中 包含 一 个 Master 节 
点 和 多 个 Slave 节点 。 在 Master 节点 上 部 署 HAWQ Master、HDFS NameNode、YARN 
ResourceManager. HAWQ 的 元 数据 服务 也 在 Master 节点 中 。 每 个 Slave 节点 上 部 署 有 HDFS 
DataNode、YARN NodeManager 以 及 一 个 HAWQ Segment. HAWQ Segment 在 执行 查询 的 时 
候 会 启动 多 个 查询 执行 器 (Query Executor, QE) 。 查 询 执行 器 运行 在 资源 容器 中 。 


YARN Node Node Node 
Resource Manager Manager Manager Manager 
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1-6 ”典型 的 HAWQ 集群 部 署 架 构 




















1. HAWQ Master 

HAWQ Master 是 系统 的 入 口 ， 其 上 运行 处 理 SQL 命令 的 数据 库 进 程 。 它 负责 的 主要 工作 
是 : 接受 客户 端 连接 ， 对 连接 请 求 进行 鉴 权 ; 处理 输入 的 SQL 命令 , 解析 SQL 并 生成 执行 计 
划 ; 向 Segment 分 发 查询 任务 ; 协调 每 个 Segment 执行 查询 返回 结果 ; 向 客户 端 程序 输出 最 终 
结果 。HAWQ Master 在 本 地 存储 的 全 局 系统 目录 是 一 组 系统 表 的 集合 , 包含 HAWQ 系统 自身 
的 元 数据 。HAWQ Master 本 地 不 存储 任何 用 户 数据 ， 用 户 数据 只 存储 在 HDFS 上 。 最 终 用 户 
通过 Master 与 HAWQ 进行 交互 。 可 以 使 用 如 psal 等 客户 端 程序 ， 或 者 类 似 JDBC、ODBC 的 
应 用 程序 接口 (APIs) 连接 到 数据 库 。 

2. 物理 Segment 与 虚拟 Segment 


在 HAWQ 中 ， 物 理 Segment 是 并 行 数据 处 理 单元 ， 每 个 主机 上 只 有 一 个 物理 Segment. 
每 个 物理 Segment 可 以 为 一 个 查询 启动 多 个 QE， 这 使 得 单一 物理 Segment 看 起 来 就 像 多 个 虚 
拟 Segment， 从 而 使 HAWQ 能 够 更 好 地 利用 所 有 可 用 资源 。 虚 拟 Segment 是 内 存 、CPU 等 资 
源 的 容器 ， 每 个 虚拟 Segment 含有 为 查询 启动 的 一 个 QE， 查 询 就 是 在 虚拟 Segment 中 被 QE 
所 执行 。 若 没有 特殊 说 明 ， 则 本 书 中 所 提 及 的 Segment 指 的 是 物理 Segment. 

与 Master 不 同 ，Segment 是 无 状态 的 ， 并 且 Segment 中 不 存储 数据 库 元 数据 和 本 地 文件 
系统 中 的 数据 。Master 节点 将 SQL 请 求 连同 相关 的 元 数据 信息 分 发 给 Segment 进行 处 理 。 元 
数据 中 包含 所 请 求 表 的 HDFS URL 地 址 ，Segment 使 用 该 URL 访问 相应 的 数据 。 
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1.8.2 ”内 部 架构 

HAWQ 可 与 Hadoop 的 资源 管理 框架 YARN 紧密 结合 ， 为 查询 提供 资源 管理 。HAWQ 在 
一 个 资源 池 中 缓存 YARN 容器 , 然后 利用 HAWQ 自身 的 细 粒 度 资 源 管 理 , 为 用 户 或 组 在 本 地 
管理 这 些 资源 。 当 执行 一 个 查询 时 ，HAWQ 根据 查询 成 本 、 资 源 队 列 定义 、 数 据 局 部 化 和 当 
前 系统 中 的 资源 使 用 情况 ,为 查询 规划 资源 分 配 。 之 后 查询 被 分 发 到 Segment 所 在 的 物理 主机 ， 
可 能 是 节点 子 集 或 整个 集群 ,每 个 Segment 节点 上 的 资源 实施 器 监控 着 查询 对 资源 的 实时 使 用 
情况 ， 避 免 异 常 资 源 占 用 。 图 1-7 是 HAWQ 内 部 架构 图 。 








图 1-7 HAWQ 内 部 架构 


可 以 看 到 在 Master 节点 内 部 有 如 下 几 个 重要 组 件 : 查询 解析 器 (ParserAnalyzer) ， 优 化 
器 ， 资 源 管理 器 ， 资 源 代 理 ，HDFS 元 数据 缓存 ， 容 错 服务 ， 查 询 派 遗 器 ， 元 数据 服务 。 在 
Slave 节点 上 安装 有 一 个 Segment， 查 询 执 行 时 ， 针 对 一 条 查询 ， 弹 性 执行 引擎 会 启动 多 个 虚 
拟 Segment 同时 执行 该 查询 ， 节 点 间 数 据 交 换 通过 Interconnect E HIKI) 进行 。 如 果 
一 个 查询 启动 了 1000 个 虚拟 Segment， 就 意味 着 这 个 查询 被 均匀 地 分 成 了 1000 份 任务 ， 这 些 
任务 会 并 行 执行 。 所 以 说 虚拟 Segment 数 其 实 表 明了 查询 执行 的 并 行 度 。 查 询 并 行 度 是 由 弹性 
执行 引擎 根据 查询 大 小 以 及 当前 资源 使 用 情况 动态 确定 的 .下 面 解释 这 些 组 件 的 作用 以 及 它们 
之 间 的 关系 。 

CL) 查询 解析 器 : 解析 查询 ， 检 查 语法 及 语义 ， 最 终生 成 查询 树 并 将 其 传递 给 优化 器 。 

(2) 优化 器 : 负责 接收 查询 树 ， 生 成 查询 计划 。 针 对 一 个 查询 ， 可 能 有 很 多 等 价 的 查询 
计划 ， 但 执行 性 能 差别 很 大 。 优 化 器 的 作用 是 找 出 最 优 的 查询 计划 。 


11 


G) 资源 管理 器 : 通过 资源 代理 向 全 局 资源 管理 器 (比如 YARN) 动态 申请 资源 ， 并 组 
存 资 源 ， 在 不 需要 的 时 候 返 回 资源 。 缓 存 资源 的 主要 目的 是 减少 HAWQ 与 全 局 资源 管理 器 之 
间 的 交互 代价 。 如 果 每 一 个 查询 都 去 向 资源 管理 器 申请 资源 , 那么 性 能 会 严重 受到 影响 。 资 源 
管理 器 同时 需要 保证 查询 不 使 用 超过 分 配给 该 查询 的 资源 , 否则 查询 之 间 会 相互 影响 , 严重 时 
可 能 导致 系统 整体 不 可 用 。 

(4) HDFS 元 数据 缓存 ， 用 于 HAWQ 确定 哪些 Segment 扫描 表 的 哪些 部 分 。HAWQ 会 
把 计算 派 遗 到 数据 所 在 的 地 方 ， 所 以 要 匹配 计算 和 数据 的 局 部 性 ， 这 需要 HDFS 块 的 位 置信 
息 。 位 置信 息 存储 在 HDFS NameNode 上 。 每 个 查询 都 访问 NameNode 会 造成 瓶颈 ， 因 此 在 
HAWQ Master 节点 上 建立 了 HDFS 元 数据 缓存 。 

(5) 容错 服务 : 负责 检测 集群 中 哪些 节点 可 用 、 哪 些 节点 不 可 用 ， 不 可 用 的 节点 会 被 排 
除 出 资源 池 。 

(6) 查询 派 遗 器 : 优化 器 优化 完 查询 后 ， 查 询 派 遗 器 将 执行 计划 分 发 到 各 个 Segment 节 
点 上 执行 ， 并 协调 查询 执行 的 整个 过 程 。 查 询 派 遗 器 是 整个 并 行 系统 的 粘 合剂 。 

CD 元 数据 服务 : 负责 存储 HAWQ 的 各 种 元 数据 ， 包 括 数据 库 和 表 信 息 ， 以 及 访问 权 
限 信息 等 。 另 外 ， 元 数据 服务 也 是 实现 分 布 式 事务 的 关键 。 

(8) 高 速 互联 网 络 : 负责 在 节点 之 间 传 输 数 据 ， 由 基于 UDP 协议 的 软件 实现 。 














为 什么 选择 HAWQ 


前 面 已 经 介绍 了 几 种 常用 SQL-on-Hadoop 的 实现 方式 , 也 了 解 了 HAWQ 的 功能 特性 与 系 
统 架 构 。 那 么 站 在 用 户 的 角度 ， 我 们 为 什么 要 选择 HAWQ? 近年 来 我 尝试 过 几 种 
SQL-on-Hadoop 产品 ， 从 最 初 的 Hive， 到 Spark SQL， 再 到 Impala， 在 这 些 产品 上 进行 了 一 系 
列 ETL、CDC、 多 维 数据 仓库 、OLAP 实验 。 从 数据 库 的 角度 看 ， 这 些 产 品 与 传统 的 DBMS 
相 比 ， 功 能 不 够 完善 ， 性 能 差距 很 大 ， 甚 至 很 难 找到 一 个 相对 完备 的 Hadoop 数据 仓库 解决 方 
案 。 这 里 就 以 个 人 的 实践 体验 来 简 述 这 些 产品 的 不 足以 及 HAWQ 的 可 行 性 。 


1.4.1 常用 SQL-on-Hadoop 产品 的 不 足 


1. Hive 

Hive 是 一 款 老 牌 的 Hadoop 数据 仓库 产品 ， 能 够 部 署 在 所 有 Hadoop 发 行 版 本 上 。 它 在 
MapReduce 计算 框架 上 封装 一 个 SQL 语义 层 ， 极 大 简化 了 MR 程序 的 开发 。 直 到 现在 ，Hive 
依然 以 其 稳定 性 赢得 了 大 量 用 户 。 

Hive 的 缺点 也 很 明显 一 一 速度 太 慢 。 随 着 技术 的 不 断 进步 , Hive 的 执行 引擎 从 MapReduce 
发 展 出 Hive on Spark、Hive on Tez 等 。 特 别 是 运行 在 Tez 框架 上 的 Hive， 其 性 能 有 了 很 大 改 
进 。 即 便 如 此 ，Hive 的 速度 还 是 比较 适合 后 台 批 处 理应 用 场景 ， 而 不 适合 交互 式 即 时 查询 和 
联机 分 析 。 
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2. Spark SQL 

Spark SQL 是 Hadoop 中 另 一 个 著名 的 SQL 引擎 ， 正 如 名 字 所 表示 的 ， 它 以 Spark 作为 底 
层 计 算 框架 ， 实 际 上 是 一 个 Scala 程序 语言 的 子 集 。Spark 基本 的 数据 结构 是 RDD， 一 个 分 布 
于 集群 节点 的 只 读数 据 集合 。 传 统 的 MapReduce 框架 强制 在 分 布 式 编程 中 使 用 一 种 特定 的 线 
性 数据 流 处 理 方式 。MapReduce 程序 从 磁盘 读 取 输 入 数据 ， 把 数据 分 解 成 键 / 值 对 ， 经 过 混 洗 、 
排序 、 归 并 等 数据 处 理 后 产生 输出 ， 并 将 最 终结 果 保存 在 磁盘 。Map 阶段 和 Reduce 阶段 的 结 
果 均 要 写 磁 盘 ， 这 大 大 降低 了 系统 性 能 。 也 是 由 于 这 个 原因 ，MapReduce 大 都 被 用 于 执行 批 
处 理 任务 。 

为 了 解决 MapReduce 的 性 能 问题 ，Spark 使 用 RDD 共享 内 存 结构 。 这 种 内 存 操作 减少 了 
磁盘 IO， 大 大 提高 了 计算 速度 。 开 发 Spark 的 初衷 是 用 于 机 器 学 习 系 统 的 培训 算法 ， 而 不 是 
SQL 查询 。Spark 宣称 其 应 用 的 延迟 可 以 比 MapReduce 降低 几 个 数量 级 ， 但 是 在 我 们 的 实际 
使 用 中 , 20TB 的 数据 集合 上 用 Spark SQL 查询 要 10 分 钟 左右 出 结果 , 这 个 速度 纵然 是 比 Hive 
快 了 4 倍 ， 但 显然 不 能 支撑 交互 查询 和 OLAP 应 用 。Spark 还 有 一 个 问题 ， 即 需要 占用 大 量 内 
存 ， 当 内 存 不 足 时 ， 很 容易 出 现 OOM 错误 o 

















3. Impala 

Impala 的 最 大 优势 在 于 执行 速度 。 官 方 宣称 大 多 数 情况 下 它 能 在 几 秒 或 几 分 钟 内 返回 查 
询 结果 ， 而 相同 的 Hive 查询 通常 需要 几 十 分 钟 甚至 几 小 时 完成 ， 因 此 Impala 适合 对 Hadoop 
文件 系统 上 的 数据 进行 分 析 式 查询 。Impala 默认 使 用 Parquet 文件 格式 ， 这 种 列 式 存储 方式 对 
于 典型 数据 仓库 场景 下 的 大 查询 是 较为 高 效 的 。 

Impala 的 问题 主要 体现 在 功能 上 的 欠缺 。 例 如 ， 不 支持 Date 数据 类 型 ， 不 支持 XML 和 
JSON 相关 函数 ， 不 支持 covar pop. covar samp, corr. percentile, — percentile approx 、 
histogram numeric. collect set 等 聚合 函数 ， 不 支持 rollup, cube. grouping set 等 操作 ， 不 支 
持 数 据 抽 样 (Sampling) ， 不 支持 ORC 文件 格式 ， 等 等 。 其 中 ， 分 组 聚合 、 取 中 位 数 等 是 数 
据 分 析 中 的 常用 操作 ， 当 前 的 Impala 存在 如 此 多 的 局 限 ， 使 它 在 可 用 性 上 大 打折 扣 ， 实 际 使 
用 时 要 格外 注意 。 


1.4.2 HAWQ 的 可 行 性 


介绍 了 几 种 SQL-on-Hadoop 产品 的 主要 问题 后 , 现在 看 HAWQ 是 否 有 能 力 取而代之 。 作 
为 用 户 ， 我 们 从 功能 与 性 能 两 方面 简单 讨论 一 下 使 用 HAWQ 在 Hadoop 上 构建 分 析 型 数据 仓 
库 应 用 的 可 行 性 。 


1. 功能 


CD 兼容 SQL 标准 
HAWQ 从 代码 级 别 上 可 以 简单 理解 成 是 数据 存储 在 HDFS 上 的 Greenplum 数据 库 ， 全 面 
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HEA SQL ili. EXC PRADXERE. IER PER. EEFJE, HORT RST ERT 
式 ， 支 持 并 集 、 交 集 、 差 集 等 集合 操作 ， 并 支持 递归 函数 调用 。 作 为 一 个 数据 库 系统 ， 提 供 这 
些 功能 很 好 理解 。 

(2) 丰富 的 函数 

除了 包含 诸多 字符 串 、 数 字 、 日 期 时 间 、 类 型 转换 等 常规 标量 函数 以 外 ，HAWQ 还 包含 
丰富 的 窗口 函数 和 高 级 聚合 函数 ， 这 些 函 数 经 常 被 用 于 分 析 型 数据 查询 。 窗 口 函 数 包括 


cume dist dense_rank, first_value. lag. last_valueexpr. lead. ntile, percent rank, rank, row. number 





等 。 高 级 聚合 函数 包括 median, percentile cont (expr) within group (order by expr [desc/asc])、 
percentile disc (expr) within group (order by expr [desc/asc]). sum(array[]). pivot sum (label[], 
label, expr)“. 
(3) 过 程 化 编程 
HAWQ 支持 内 建 的 SQL、C、Java、Perl、pgSQL、Python、R 等 多 种 语言 的 过 程 化 编程 。 
(4) 原生 Hadoop 文件 格式 支持 
HAWQ 支持 HDFS 上 的 AVRO、Parquet、 平面 文本 等 多 种 文件 格式 ,支持 snappy. gzip. 
quicklz、RLE 等 多 种 数据 压缩 方法 。 与 Hive 不 同 HAWQ 实现 了 schema-on-write( 写 时 模式 ) 
数据 验证 处 理 , 不 符合 表 定 义 或 存储 格式 的 数据 是 不 允许 进入 到 表 中 的 , 这 点 与 传统 数据 库 管 
理 系 统 保持 一 致 。 


(5) 外 部 数据 整合 
HAWQ 通过 PXF 模块 提供 访问 HDFS 上 的 JSON 文件 、Hive、HBase 等 外 部 数据 的 能 力 。 
除了 用 于 访问 HDFS 文件 的 PXF 协议 ，HAWQ 还 提供 了 gpfdist 文件 服务 器 ， 它 利用 HAWQ 
系统 并 行 读 写本 地 文件 系统 中 的 文件 。 
2. 性 能 
COD 基于 成 本 的 SQL 查询 优化 器 
HAWQ 采用 基于 成 本 的 SQL 查询 优化 器 。 该 查询 优化 器 以 针对 大 数据 模块 化 查询 优化 器 
架构 的 研究 成 果 为 基础 而 设计 ， 能 够 生成 高 效 的 执行 计划 。 
(2) 5 Impala 的 性 能 比较 
同样 采用 MPP 架构 ,图 1-8 是 HAWQ 提供 的 TPC-DS 性 能 比较 图 , 从 中 可 以 看 出 HAWQ 
平均 比 Impala 快 4.55 fii. 


HAWQ Performance vs Impala 





图 1-8. HAWQ 45 Impala 性 能 比较 


(3) 5 Hive 的 性 能 比较 
为 了 取得 第 一 手数 据 ， 我 们 做 了 以 下 HAWQ 与 Hive 查询 的 性 能 对 比 测试 。 


e ”硬件 环境 
4 & VMware 虚 机 组 成 的 Hadoop 集群 ， 每 台 机 器 配置 如 下 : 


> 15K RPM SAS 100GB 
> Intel(R) Xeon(R) E5-2620 v2 @ 2.10GHz， 双 核 双 CPU 
> 8GB 内 存 ，8GB Swap 
>  10000Mb/s 虚拟 网 卡 
e 软件 环境 
Linux: CentOS release 6.4， 核 心 2.6.32-358.el6.x86_64 
Ambari: 2.4.1 
Hadoop: HDP 2.5.0 
Hive (Hive on Tez) : 2.1.0 
HAWQ: 2.1.1.0 
HAWQ PXF: 3.1.1 
e ”数据 模型 


VVVVV V 





"T Hawa * Impala supported 74 of 99 
a «Faster on 46 of 62 | queries, 12 crashed mid-run 
= TPC-OS queries | 
| - , Completed” | 
- 
i 12 hrs faster otl 
if 
MAWQ = 
= g 
i= 
i 
i= 
- | | 
- 
J Ua il Ind, Lr al atl, n il 
n] 口上 A 
= “| | 
Foster 


实验 模拟 一 个 记录 页 面 单 击 数据 的 分 析 型 应 用 。 数 据 模型 中 包含 日 期 、 页 面 、 浏 览 器 、 引 


用 、 状 态 5 个 维度 表 ，1 个 页 面 单 击 事实 表 。 表 结构 和 关系 如 图 1-9 所 示 。 
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PAGE DIM 
PAGE SK 


DOMAIN NM 
REACHABIITY CD 
PAGE DESC 
PROTOCOL NM 
=F 

| 


rums 





DATE DM 
CAL DT 


DAY IN CAL YR NO 
DAY OF WEEK NO 


i STATUS CODE DIM 
i 

START OF MONTH DT i 1 
i 
i 


STATUS CD 
CUENT ERROR FLG 


l | 
| l 
l l 
| | 
| | 
l l 
| l 
| | 
1 f 


START. STATUS CD DESC 
"ART OF QUARTER DT 

区 SERVER ERROR Fi 
START OF WEEK DT PAGE QLICK FACT RVEI LG} 


START_OF_YEAR DT 1 VISITOR ID 





DETAIL TM 


PAGE CUCK DT|FK) 
PAGE SK(FK) 

CUENT SESSION DT (FK) 
PREVIOUS PAGE SK(FK) 
REFERRER SK (FK) 
NEXT PAGE. SK (FK) 
STATUS CD (FK) 
BROWSER SK {FK} 
BYTES RECEIVED CNT 
BYTES SENT CNT 
CUENT DETAIL TM 
ENTRY PONT FLG 

EXIT POINT FLG 

IP ADDRESS. 

QUERY STRING TXT 
SECONDS SPENT ON PAGE CNT 


má rere 





SEQUENCE NO BROWSER DM 
REQUESTED FE TXT BROWSER. SK 
BROWSER NM 


一 一 BROWSER VERSION NO 
FLASH VERSION NO 
FLASH ENABLED FLG 
REFERRER DM JAVA VERSION NO 
PLATFORM DESC 
esami JAVA ENABLED FLG 
REFERRER TXT JAVA SCRIPT ENABLED FLG 
REFERRER DOMAIN. NM COOKIES ENABLED FLG 
USER LANGUAGE CD 
SCREEN COLOR DEPTH NO 
SCREEN SEE TXT i 


a 
| 
| 
| 
| 
| 
| 








1 
| 
i 
i 
i 
1 
1 
| 
i 
i 
i 
i 


图 1-9 性 能 对 比 测试 数据 模型 
e 记录 数 
各 表 的 记录 数 如 表 1-2 所 示 。 
表 1-2 各 表 记 录 数 





RA 
page lik: fact 





a 一 


referrer_dim 100 7j date dim 

e 查询 

分 别 用 Hive 和 HAWQ 执行 以 下 5 个 典型 查询 ， 记 录 执 行 时 间 。 
点 上 访问 最 多 的 目录 。 





> 查询 给 定 周 中 support.sas.com 
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查询 各 月 从 www.google.com 访问 的 页 面 。 

给 定年 份 support.sas.com 站 点 上 的 搜索 字符 串 计数 。 

查询 使 用 Safari 浏览 器 访问 页 面 的 人 数 。 

> 查询 给 定 周 中 support.sas.com 站 点 上 浏览 超过 10 秒 的 页 面 。 


Vv v 


建 表 和 查询 语句 参见 http://blog.csdn.net/wzy0623/article/details/71479539. 
e ”测试 结果 
Hive, HAWQ 外 部 表 、HAWQ 内 部 表 查 询 时 间 对 比如 表 1-3 所 示 。 每 种 查询 情况 执行 三 
次 取 平 均值 。 
表 1-3 ”查询 执行 时 间 
HAWG 内 部 表 CO 
EE 


nam 18.565 
[a 0 [sese 359.78 
60.341 118329 2.789 





从 图 1-10 中 的 对 比 可 以 看 到 ，HAWQ 内 部 表 比 Hive on Tez 快 得 多 (4-50 倍 ) 。 同 样 的 
查询 ,在 HAWQ 的 Hive 外 部 表 上 执行 却 很 慢 .由 此 可 见 , 在 执行 分 析 型 查询 时 最 好 使 用 HAWQ 
内 部 表 。 














执行 时 间 〈 秒 ) 200 " Hive 
m HAWOSD RBS 


150 HAWQ 内 部 表 
100 Bek 
j i 
o T 
2 3 4 
查询 


图 1-10 查询 执行 时 间 对 比 图 
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143 适合 DBA 的 解决 方案 


HAWQ 最 吸引 人 的 地 方 是 它 支持 SQL 过 程 化 编程 , 这 是 通过 用 户 自 定义 函数 (user-defined 
functions, UDF) 实现 的 。 编写 UDF 的 语言 可 以 是 SQL. C. Java, Perl, Python, R 和 pgSQL. 
数据 库 应 用 开发 人 员 常 用 的 自然 是 SQL 和 pgSQL，PL/pgSQL 函数 可 以 为 SQL 语言 增加 控制 
结构 ， 执 行 复杂 计算 任务 ， 并 继承 所 有 PostgreSQL 的 数据 类 型 〈 包 括 用 户 自 定义 类 型 ) 、 函 
数 和 操作 符 。 

HAWQ 是 我 所 使 用 过 的 SQL-on-Hadoop 解决 方案 中 唯一 支持 SQL 过 程 化 编程 的 ，Hive、 
Spark SQL, Impala, Kylin 都 没有 此 功能 。 对 于 习惯 了 编写 存储 过 程 的 DBA 来 说 ， 这 无 疑 大 
大 提高 了 HAWQ 的 易 用 性 。HAWQ 的 UDF 提供 以 下 特性 : 


@ 给 HAWQ 内 部 函数 起 别名 。 
返回 结果 集 的 表 函 数 。 
参数 个 数 可 变 的 函数 。 

多 态 数据 类 型 。 





小 结 


HAWQ 是 一 个 Hadoop 上 的 SQL 引擎 ， 是 以 Greenplum Database 为 代码 基础 逐渐 发 展 起 
来 的 。HAWQ 采用 MPP 架构 ， 改 进 了 针对 Hadoop 的 基于 成 本 的 查询 优化 器 。 除 了 能 高 效 处 
理 本 身 的 内 部 数据 ， 还 可 通过 PXF 访问 HDFS、Hive、HBase、JSON 等 外 部 数据 源 。HAWQ 
全 面 兼容 SQL 标准 ， 能 编写 SQL UDF， 还 可 用 SQL 完成 简单 的 数据 挖掘 和 机 器 学 习 。 无 论 
是 功能 特性 ， 还 是 性 能 表现 ，HAWQ 都 比较 适用 于 构建 Hadoop 分 析 型 数据 仓库 应 用 。 


mos 


E Eg 
«HAWQSZSBIS& > 


本 章 详细 说 明 HAWQ 的 安装 部 署 过 程 ， 以 及 如 何 启动 和 停止 HAWQ 服务 。 后 面 章节 的 
实践 部 分 都 是 在 本 章 完成 的 安装 环境 中 进行 的 。 安 装 环境 的 主机 、 软 硬件 信息 如 下 : 


© ”主机 信息 如 表 2-1 所 示 ， 所 有 主机 都 能 连接 互联 网 。 





表 2-1 主机 信息 





172.161.125 fips a 


e 硬件 配置 : 每 台 主 机 CPU4 核 、 内 存 8GB、 硬 盘 100GB. 
@ 软件 版 本 如 表 2-2 所 示 。 


表 2-2 系统 软件 版 本 

















名 称 版 本 

操作 系统 CentOS release 6.4 (Final) 64 位 

JDK OpenJDK 64-Bit version "1.7.0_09-icedtea" 
数据 库 MySQL 5.6.14 

JDBC MySQL Connector Java 5.1.38 

HDP 2.5.0 

Ambari 2.4.1 











2.1.1 选择 安装 介质 


HAWQ 的 安装 介质 有 两 种 选择 ， 一 是 下 载 源码 手工 编译 ， 二 是 使 用 官方 提供 的 编译 好 的 
安装 包 。HAWQ 2.0.0 版 本 的 源码 下 载 地 址 为 : http://apache.org/dyn/closer.cgi/incubator/hawq 




















/2.0.0.0-incubating/apache-hawq-src-2.0.0.0-incubating.tar.gz。 源 码 编译 和 安装 的 Apache 官方 文 
档 地 址 为 : https://cwiki.apache.org/confluence/display/HAWQ/Buildtand+Install。 网 上 也 有 一 些 
资料 可 供 参 考 。 

建议 初学 者 不 要 使 用 源码 编译 方式 ， 这 种 方法 需要 的 依赖 很 多 ， 对 操作 系统 、Hadoop 的 
版 本 、 安 装 与 配置 的 要 求 都 较 高 。 推 荐 使 用 编译 好 的 安装 包 ， 主 要 原因 是 过 程 相对 简单 、 安 装 


2.1.2 选择 HAWQ 版 本 


这 里 安装 的 是 HAWQ 2.1.1。 该 版 本 最 主要 的 变化 是 实现 了 对 ORC 文件 格式 的 支持 ， 包 
含 了 所 有 Apache HAWQ 镶 化 项 目的 功能 特性 ， 并 修复 了 一 些 之 前 的 bug. 

在 选择 HAWQ 版 本 时 ， 需 要 考虑 它 与 所 支持 操作 系统 、Hadoop 平台 和 安装 工具 Ambari 
四 者 之 间 的 版 本 匹配 关系 。 表 2-3 显示 了 HAWQ 2.1.1 版 本 的 产品 支持 。 


表 2-3 HAWQ 2.1.1 产品 支持 





HAWQ 版 本 | PXF 版 本 Hortonwork | Ambari 版 本 | HAWQ MADIib 版 本 | RHEL/Cent 
s HDP 版 本 Ambari OS 版 本 
Plug-inban 





版 本 
udo — [sa so ee 
注意 : 

€ HAWQ 目前 仅 兼容 Hortonworks HDP 一 种 Hadoop 发 行 版 本 。 

€ HAWQ 2.1.1 不 支持 RHEL/CentOS 7. 

实际 上 HAWQ 只 在 HDP 上 经 过 了 严格 的 测试 。 细 心 的 读者 也 许 已 经 注意 到 ， 前 一 章 介 
绍 HAWQ 功能 特性 时 ， 仅 提 到 与 Hortonworks Hadoop 兼容 ， 也 就 是 这 个 原因 。 和 希望 HAWQ 
能 提高 对 HDP 以 外 其 他 Hadoop 发 行 版 本 的 支持 与 普 适度 , 以 便 在 其 他 Hadoop 平台 上 安装 使 
用 更 为 容易 。 
2.1.3 确认 Ambari 5 HDP 的 版 本 兼容 性 


安装 HAWQ 之 前 首先 需要 安装 Ambari 和 Hortonworks Data Platform (HDP) 。 从 表 2-3 
看 到 ， 与 HAWQ 2.1.1 兼容 的 Ambari 版 本 是 2.4.1、HDP 版 本 是 2.5。 再 次 从 Hortonworks 官 
方 的 安装 文档 中 确认 版 本 兼容 性 ， 兼 容 矩 阵 如 表 2-4 所 示 。 
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表 2-4 Ambari 5 HDP 的 版 本 兼容 性 


Ambari* HDP 2.5 HDP2.4 HDP 2.3 HDP 2.2 HDP 2.1 
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图 | 图 图 图 


























* Ambari|does not install Hue or HDP Search (Solr). 


** If you plan to install and manage HDP 2.3.4 (or later), you must use Ambari 2.2.0 (or 
later). Do not use Ambari 2.1x with HDP 2.3.4 (or later). 





整个 HAWQ 的 安装 部 署 过 程 包括 安 装 Ambari、 安 装 HDP、 安 装 HAWQ 三 个 依次 进行 的 
步骤 ,在 实施 这 些 步骤 前 需要 做 一 些 准备 工作 。 如 果 没 有 做 特殊 说 明 ,那么 所 有 配置 或 命令 都 
用 root 用 户 执行 。 


2.2.1 确认 最 小 系统 需求 

HAWQ 2.1.1 官方 文档 说 明 的 最 小 系统 需求 如 下 : 

@ 操作 系统 : CentOS v6.x。 

€ 浏览 器 : Google Chrome 26 及 以 上 。 

© ”依赖 软件 包 : yum, rpm. scp. curl, unzip, tar. wget. OpenSSL (v1.01, build 16 or later). 
Python 2.6.x. OpenJDK 7/8 64-bit. 

€ 系统 内 存 与 磁盘 : Ambari 主机 至 少 应 该 有 IGB 内 存 和 500MB 剩余 磁盘 空间 。 如 果 
要 使 用 Ambari Metrics， 所 需 内 存 和 磁盘 大 小 依据 集群 规模 如 表 2-5 所 示 。 


表 2-5 资源 需求 与 集群 规模 











主机 数量 可 用 内 存 磁盘 空间 
1 1024MB 10GB 
10 1024MB 20GB 
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( 续 表 ) 




















主机 数量 可 用 内 存 磁盘 空间 
50 2048MB 50GB 
100 4096MB | 100GB 
300 4096MB | 100GB 
500 8192MB | 200GB 
1000 12288MB 200GB 








@ 最 大 打开 文件 描述 符 : 推荐 值 大 于 10000。 使 用 下 面 的 命令 检查 每 个 主机 的 当前 值 : 


ulimit -Sn 
ulimit -Hn 
€ ”如 果 小 于 10000， 使 用 下 面 的 命令 设置 成 10000: 


ulimit -n 10000 


2.2.2 ”准备 系统 安装 环 


(1) 禁用 防火 墙 
在 安装 期 间 Ambari 需要 与 部 署 集群 主机 通信 ， 因 此 特定 的 端口 必须 打开 。 最 简单 的 实现 
方式 是 执行 下 面 的 命令 禁用 防火 墙 ， 所 有 主机 都 要 执行 
/etc/init.d/iptables stop 
chkconfig iptables off 


(2) 禁用 SELinux 
Ambari 安装 需要 禁用 SELinux， 所 有 主机 都 要 执行 : 
setenforce 0 


# 编辑 /etc/selinux/config 文件 ， 设 置 
SELINUX=disabled 


(3) 配置 域名 解析 
编辑 /etc/hosts 文件 ， 添 加 如 下 四 行 ， 所 有 主机 都 要 执行 : 
172.16.1.124 hdpl 
172.16.1.125 hdp2 
172.16.1.126 hdp3 
172.16.1.127 hdp4 
注意 ， 不 要 删除 文件 中 原 有 的 如 下 两 行 ， 否 则 可 能 引起 网 络 问题 : 


127.0.0.1 localhost localhost.localdomain localhost4 
localhost4.localdomain4 
a localhost localhost.localdomain localhost6 localhost6.1localdomain6 
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在 hdpl 上 执行 : 


hostname hdpl 

# 编辑 /etc/sysconfig/network 文件 ， 设 置 如 下 两 行 : 
NETWORKING=yes 

HOSTNAME=hdp1 


hdp2. hdp3. hdp4 上 执行 类 似 的 配置 。 


(4) 安装 配置 NTP 
安装 NTP 服务 ， 所 有 主机 都 要 执行 : 
yum install -y ntp 


chkconfig ntpd on 
service ntpd start 


(5) 配置 SSH 免 密 码 

为 了 使 Ambari Server 在 集群 所 有 主机 上 自动 安装 Ambari Agents, 必须 配置 Ambari Server 
主机 到 集群 其 他 主机 的 SSH 免 密 码 连 接 。 以 下 配置 用 于 在 hdpl 上 运行 Ambari Server, 在 所 有 
四 台 主 机 上 运行 Ambari Agents 的 情况 。 

在 hdpl 上 执行 : 

ssh-keygen 

es 一 路 回 车 ... 

ssh-copy-id hdpl 

ssh-copy-id hdp2 

ssh-copy-id hdp3 

ssh-copy-id hdp4 


在 所 有 主机 执行 : 


chmod 700 ~/.ssh 
chmod 600 ~/.ssh/authorized_keys 


(6) 安装 MySQL JDBC 驱动 
所 有 主机 都 执行 : 


tar -zxvf mysql-connector-java-5.1.38.tar.gz 
cp ./mysql-connector-java-5.1.38/mysql-connector-java-5.1.38-bin.jar 
/usr/share/java/mysql-connector-java.jar 


(7) 安装 MySQL 数据 库 
在 hdpl、hdp2 上 安装 MySQL, hdpl 上 的 MySQL 用 于 Ambari, hdp2 上 的 MySQL 用 于 
Hive. Oozie 等 Hadoop 组 件 。 在 hdpl. hdp2 上 执行 以 下 命令 : 


rpm -ivh MySQL-5.6.14-1.e16.x86 64.rpm 
service mysql start 
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(8) 在 MySQL 中 建立 数据 库 用 户 并 授权 
登录 hdp2 上 的 MySQL， 执 行 下 面 的 SQL 命令 建立 数据 库 用 户 并 授权 : 


create database hive; 

create database oozie; 

create user 'hive'@'%' identified by 'hive'; 
grant all privileges on hive.* to 'hive'@'$'; 
create user 'oozie'G'$' identified by 'oozie'; 
grant all privileges on oozie.* to 'oozie'@'%'; 


flush privileges; 


2.23 ”建立 本 地 Repository 

联机 安装 过 程 中 需要 从 远程 的 Repository 中 yum 下 载 所 需要 的 包 。 为 了 防止 由 于 网 络 不 
稳定 或 远程 Repository 不 可 用 等 原因 导致 的 安装 失败 ,最 好 配置 本 地 Repository。 在 安装 HAWQ 
时 ， 本 地 和 远程 的 Repository 配合 使 用 ， 既 能 加 快 安装 进度 ， 又 能 补 全 所 需 的 包 。 


(1) 下 载 以 下 两 个 文件 到 hdpl: 


wget 
http://public-repo-1.hortonworks.com/HDP/centos6/2.x/updates/2.5.0.0/HDP-2.5.0 
.Ü-centos6-rpm.tar.gz 

wget 
http://public-repo-1l.hortonworks.com/HDP-UTILS-1.1.0.21/repos/centos6/HDP-UTIL 
$-1.1.0.21-centos6.tar.gz 


(2) 在 hdpl 上 建立 一 个 HTTP 服务 器 : 


yum install httpd 

mkdir -p /var/www/html/ 

cd /var/www/html/ 

tar -zxvf -/HDP-2.5.0.0-centos6-rpm.tar.gz 
tar -zxvf -/HDP-UTILS-1.1.0.21-centos6.tar.gz 
service httpd start 


(3) 新 建 /etc/yum.repos.d/hdp.repo 文件 ， 添 加 如 下 行 : 


[hdp-2.5.0.0] 

name-hdp-2.5.0.0 
baseurl-http://172.16.1.124/HDP/centos6/ 
path-/ 

enabled-1 

gpgcheck=0 

priority=10 


(4) 新 建 /etc/yum.repos.d/hdp-utils.repo 文件 ， 添 加 如 下 行 : 
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[HDP-UTILS-1.1.0.21] 

name-HDP-UTILS-1.1.0.21 
baseurl-http://172.16.1.124/HDP-UTILS-1.1.0.21/repos/centos6 
path=/ 

enabled=1 

gpgcheck=0 

priority=10 


(5) F4 CentOS6-Base-163.repo 到 /etc/yum.repos.d 目录 。 
安装 过 程 中 发 现 本 地 仓库 不 全 ， 还 少 RPM 包 ， 因 此 再 加 一 个 163 的 源 。 


cd /etc/yum.repos.d/ 
wget http://mirrors.163.com/.help/CentOS6-Base-163.repo 


(6) 新 建 /etc/yum.repos.d/fedora.repo 文件 ， 添 加 如 下 行 : 


[epel] 

name-epel 
baseurl-http://dl.fedoraproject.org/pub/epel/6/x86 64/ 
enabled-1 

gpgcheck=0 


HAWQ 的 Repository 中 缺少 libgsasl 库 ， 因 此 再 加 一 个 包含 libgsasl 库 的 源 。 
CD 将 新 建 的 Repository 配置 文件 复制 到 其 他 主机 : 


scp /etc/yum.repos.d/* root@hdp2:/etc/yum.repos.d/ 
scp /etc/yum.repos.d/* root@hdp3:/etc/yum.repos.d/ 
scp /etc/yum.repos.d/* root@hdp4:/etc/yum.repos.d/ 


d 安装 Ambari 


Ambari 是 Apache Software Foundation 中 的 一 个 顶级 项 目 。 从 Ambari 的 作用 来 说 ， 就 是 
创建 、 管 理 、 监 视 Hadoop 的 集群 。 这 里 所 说 的 Hadoop 是 广义 的 ， 指 的 是 Hadoop 整个 生态 圈 
(例如 Hive、HBase、Sqoop、ZooKeeper 等 ) ， 而 并 不 仅 是 特 指 Hadoop。 一 言 以 英之 , Ambari 
就 是 让 Hadoop 以 及 相关 的 大 数据 软件 更 容易 使 用 的 一 个 工具 。 
Ambari 主要 具有 以 下 功能 特性 : 
e 通过 一 步 一 步 地 安装 向 导 简化 了 集群 部 署 。 
e 预先 配置 好 关键 的 运 维 指标 (metrics) ， 可 以 直接 查看 Hadoop Core ( HDFS 和 
MapReduce ) 及 相关 项 目 (如 HBase. Hive 和 HCatalog) 是 否 健康 。 
e ”支持 作业 与 任务 执行 的 可 视 化 与 分 析 ， 能 够 更 好 地 查看 依赖 和 性 能 。 
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€ ”通过 一 个 完整 的 RESTful API 把 监控 信息 暴露 出 来 ， 集 成 了 现 有 的 运 维 工具 。 

e 用户 界面 非常 直观 ， 用 户 可 以 轻松 有 效 地 查看 信息 并 控制 集群 。 

Ambari 使 用 Ganglia 收集 度量 指标 ， 用 Nagios 支持 系统 报警 ， 当 需要 引起 管理 员 的 关注 
时 《比如 ， 节 点 停机 或 磁盘 剩余 空间 不 足 等 问题 ) ， 系 统 将 向 其 发 送 邮件 。 此 外 ，Ambari 能 
够 部 署 安全 的 〈 基 于 Kerberos) Hadoop 集群 ， 以 此 实现 对 Hadoop 安全 的 支持 ， 提 供 基于 角 
色 的 用 户 认证 、 授 权 和 审计 功能 ， 并 为 用 户 管理 集成 了 LDAP 和 Active Directory. 

Ambari 自身 也 是 一 个 分 布 式 架 构 的 软件 ， 主 要 由 两 部 分 组 成 : Ambari Server 和 Ambari 
Agent。 简 单 来 说 ， 用 户 通过 Ambari Server 通知 Ambari Agent 安装 对 应 的 软件 ，Agent 会 定时 
发 送 各 个 机 器 上 每 个 软件 模块 的 状态 给 Ambari Server， 最 终 这 些 状 态 信息 将 呈现 在 Ambari 的 
GUI 中 ， 方 便 用 户 了 解 集群 的 状态 ， 并 进行 相应 的 维护 。 下 面 说 明 Ambari 的 安装 步骤 。 

1. 下 载 Ambari repository 到 hdp1 

(1) 下 载 Ambari repository 文件 


wget -nv 
http: //public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.4.1.0/ambari 
.repo -O /etc/yum.repos.d/ambari.repo 


注意 ， 这 里 的 文件 名 必须 是 ambari.repo， 当 Ambari Agent 注册 到 Ambari Server 时 需要 此 
文件 。 
(2) 确认 repository 配置 
e e 
应 该 看 到 类 似 下 面 的 信息 : 


[root@hdp1 ~]# yum repolist | grep amba 
Repository base is listed more than once in the configuration 
Updates-ambari-2.4.2.0 ambari-2.4.2.0 - Updates 12 


(3) 安装 Ambari Server 
yum install ambari-server 


这 一 步 也 会 安装 Ambari 默认 使 用 的 PostgreSQL 数据 库 。 出 现 提示 符 时 输入 y， 确 认 事务 
和 依赖 检查 。 


2. 73 Ambari 配置 MySQL 数据 库 
(1) 在 hdpl 上 的 MySQL 中 建立 Ambari 数据 库 用 户 并 授权 : 


create user 'ambari'G'$' identified by 'ambari'; 
grant all privileges on *.* to 'ambari'Q'$'; 
flush privileges; 
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(2) 建立 Ambari Server 数据 库 模式 : 


create database ambari; 
use ambari; 
source /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sql; 


3. 配置 Ambari Server 

启动 Ambari Server 前 必须 进行 配置 ， 指 定 Ambari 使 用 的 数据 库 、 安 装 JDK、 指 定 运行 
Ambari Server 守护 进程 的 用 户 等 。 在 hdpl 上 执行 下 面 的 命令 管理 配置 过 程 。 

ambari-server setup 


€ 出 现 Customize user account for ambari-server daemon 提示 时 输入 n， 使 用 root 用 户 运 
行 Ambari Server。 

© 选择 JDK 1.7。 

€ 出 现 Enter advanced database configuration 提示 时 输入 y， 选 择 Option [3] 
MySQL/MariaDB， 然 后 根据 提示 输入 连接 MySQL 的 用 户 名 、 密 码 和 数据 库 名 ， 就 
是 上 一 步 配置 的 信息 ， 这 里 均 为 ambari。 

4. 启动 Ambari Server 

在 hdpl 上 执行 下 面 的 命令 启动 Ambari Server: 


ambari-server start 
* 查看 Ambari Server 进程 状态 


ambari-server status 


至 此 ，Ambari 安装 完成 。 


安装 HDP 集群 


Hortonworks Data Platform 是 Hortonworks 公司 开发 的 Hadoop 数据 平台 。Hortonworks 由 
Yahoo 的 工程 师 创建 ， 它 为 Hadoop 提供 了 一 种 “service only” 的 分 发 模型 。 有 别 于 其 他 商业 
化 的 Hadoop 版 本 ，Hortonworks 是 一 个 可 以 自由 使 用 的 开放 式 企 业 级 数据 平台 。 其 Hadoop 发 
行 版 本 即 HDP， 可 以 被 自由 下 载 并 整合 到 各 种 应 用 当中 。 

Hortonworks 是 第 一 个 提供 基于 Hadoop 2.0 版 产品 的 厂商 ， 也 是 目前 唯一 支持 Windows 
平台 的 Hadoop 分 发 版 本 。 用 户 可 以 通过 HDInsight 服务 ， 在 Windows Azure 上 部 署 Hadoop 
集群 。 

下 面 说 明 如 何在 浏览 器 中 使 用 Ambari 的 安装 向 导 交互 式 安装 、 配 置 、 部 署 HDP。 

1. 登录 Ambari 

在 浏览 器 中 打开 http://172.16.1.124:8080, 初始 的 用 户 名 /密码 为 admin/admin。 在 欢迎 页 面 
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单 击 Launch Install Wizard， 如 图 2-1 所 示 。 


Create a Cluster 
Use the Install Wizard to select services and configure your cluster 





Manage Users + Groups Deploy Views 
Manage the users and groups that can Create view instances and grant 
access Ambari permissions 


A ese 
ann 
ess 

= 

2-1 启动 Ambari 安装 向 导 





2. 给 集群 命名 

集群 名 称 中 不 要 有 空格 和 特殊 字符 ， 然 后 单 击 Next。 
3. 选择 HDP 版 本 

选择 2.5.0.0， 如 图 2-2 所 示 。 


HDP.25 
HDP.2.4 170 
HDP-23 Ambari Metros 0.1.0 
Anas 070 
HO! 
Faicon 0.10.0 
Flume 152 
HBase 112 
HOFS 211 











图 2-2 选择 HDP 版 本 


4. 选择 Repositories 

选择 Use Public Repositories， 然 后 单 击 Next。 

5. 安装 选项 

€ 在 TargetHosts 编辑 框 中 输入 四 个 主机 名 ， 每 个 一 行 。 


€ £2 Choose File 按钮 ， 选 择 2.2.2 “准备 系统 安装 环境 ”第 (5) HP hdpl 上 生成 
的 私 钥 文件 id_rsa。 
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e 设置 用 户 名 root、 端 口 22。 
€ Jit Register and Confirm. 


6. 确认 主机 

选中 4 台 主机 ， 单 击 Next. 

7. 选择 服务 

根据 需要 选择 服务 ， 或 者 接受 默认 配置 ， 单 击 Next。 

8. 标识 Masters 

根据 需要 选择 Masters， 或 者 接受 默认 配置 ， 单 击 Next。 

9. 标识 Slaves 和 Clients 

根据 需要 选择 Slaves 和 Clients， 或 者 接受 默认 配置 ， 单 击 Next. 

10. 定制 服务 

€ 为 hive 和 oozie 配 置 MySQL 数据 库 连 接 。 

e 设置 所 需 的 密码 。 

@ ”其 他 保持 默认 。 

11. 复查 确认 

确认 之 前 的 配置 无 误 后 ， 单 击 Deploy. 

12. 安装 、 启 动 与 测试 

此 时 显示 安装 进度 页 面 。Ambari 对 HDP 每 个 安装 的 组 件 执行 安装 、 启 动 和 测试 。 此 时 不 
要 刷新 浏览 器 ， 等 待 部 署 过 程 完 全 执行 成 功 。 当 出 现 “Successfully installed and started the 
services” 时 ， 单 击 Next。 

13. 完成 


汇总 页 面 显示 完成 的 任务 列表 。 单 击 Complete， 显 示 Ambari Web GUI 主页 面 。 至 此 ， 
HDP 安装 完成 。 





安装 HAWQ 


1. 选择 HAWQ 主机 
在 安装 HAWQ 之 前 ， 使 用 下 面 的 步骤 选择 和 准备 所 需 主机 。 
(1) 选择 HAWQ 主机 。 记 住 有 以 下 限制 : 


29 


© 每 台 主机 都 必须 满足 安装 相应 版 本 HAWQ 的 系统 要 求 。 
€ 每 个 HAWQ Segment 所 在 主机 必须 和 其 上 运行 的 HDFS DataNode 协同 工作 。 
€ HAWQ Master 和 Standby 必须 部 署 在 不 同 的 主机 上 。 


在 本 实验 环境 中 ， 集 群 中 的 四 台 主 机 均 作为 HAWQ Segment， 其 中 两 台 分 别 作为 HAWQ 
Master 和 Standby， 在 安装 时 Ambari 会 自动 部 署 主机 。 
(2) 选择 运行 PXF 主机 。 记 住 有 以 下 限制 : 
€ = PXF 必须 安装 在 HDFS NameNode 和 所 有 HDFS DataNodes 主机 上 。 
€ ”如 果 配 置 了 Hadoop HA, PXF 必须 安装 在 包括 所 有 NameNode 和 所 有 HDFS Node 的 
主机 上 。 
© 如果 想 通过 PXF 访问 HBase 和 Hive, 必须 在 将 要 安装 PXF 的 主机 上 首先 安装 HBase 
和 Hive 的 客户 端 。 
在 本 实验 环境 中 , 集群 中 的 四 台 主 机 均 安 装 PXF, 在 安装 时 Ambari 会 自动 部 署 主机 。( 在 
前 面部 署 HDP 时 ， 已 经 在 所 有 四 台 机 器 上 安装 了 客户 端 程序 。) 
(3) 确认 所 有 主机 上 所 需 的 端口 没有 被 占用 。 
HAWQ Master 和 Standby 服务 默认 使 用 5432 端口 。 前面 安 装 Ambari 时 使 用 的 是 MySQL 
数据 库存 储 元 数据 ， 而 不 是 默认 的 PostgreSQL， 所 以 本 次 安装 中 不 存在 端口 冲突 问题 。 
2. 建立 HAWQ 的 Repositories 
在 安装 HAWQ 前 需要 建立 两 个 本 地 yum repositories。 在 运行 Ambari Server 的 主机 上 
(Chdpl) 以 root 用 户 执行 下 面 的 步骤 。 这 台 主 机 〈 称 为 repo-node) 必须 能 够 访问 HAWQ 集 
群 的 所 有 节点 。 


(1) 重启 httpd 服务 器 。 





service httpd [re]start 


(2) 从 https://network.pivotal.io/products/pivotal-hdb 下 载 名 为 hdb-2.1.1.0-7.tar 的 HAWQ 
安装 文件 。 

(3) 建 立 一 个 临时 目录 存储 解压 后 的 HAWQ 安装 包 。 运 行 httpd 进程 的 操作 系统 用 户 ( 本 
次 安装 中 是 root) 必须 对 该 目录 及 其 所 有 上 级 目录 具有 可 读 可 执行 的 权限 。 


mkdir /staging 
chmod a*rx /staging 


注意 ， 不 要 使 用 /tmp 目录 ，/tmp 下 的 文件 可 能 在 任意 时 间 被 删除 。 


(4) HAWQ 安装 文件 中 包含 一 个 yum repository。 解 压 安装 文件 后 ， 运 行 setup_repo.sh 
脚本 ， 将 HAWQ 软件 的 发 布 包 添 加 到 本 地 yum 包 的 repository 中 。 


cd /staging 


30 


tar ~ZxvE hdb=2.1.1.0=7.tar 
cd hdb-2.1.1.0 
./setup repo.sh 


setup repo.sh 在 本 地 建立 一 个 名 为 hdb-2.1.1.0.repo 的 HDB repository, Jf H.E httpd 服务 
器 的 根 目录 〈 默 认为 /varwww/html) 下 建立 一 个 符号 链接 ， 指 向 hdb-2.1.1.0-7.tar 的 解压 缩 目 
录 。 在 本 次 安装 中 为 /var/www/html/hdb-2.1.1.0 一 /staging/hdb-2.1.1.0。 


(5) 在 HAWQ 集群 的 所 有 节点 上 安装 epel-release 包 : 
yum install -y epel-release 


3. 使 用 Ambari 安装 HAWQ 


(1) 用 root 用 户 登 录 Ambari Server 主机 Chdp1) 。 
(2) 从 HDB repository 安装 HAWQ Ambari 插件 。 


yum install -y hawq-ambari-plugin 
以 上 命令 会 建立 /varlib/hawq 目录 ， 并 将 所 需 的 脚本 和 模板 文件 安装 到 该 目录 中 。 
(3) 重启 Ambari 服务 器 。 





ambari-server restart 
(4) 执行 add-hawq.py 脚本 将 HDB repository 添加 到 Ambari 服务 器 中 o 


cd /var/lib/hawq 
./add-hawq.py --user admin --password admin --stack HDP-2.5 


需要 提供 正确 的 Ambari 管理 员 用 户 名 和 密码 ， 默 认 都 是 admin. 
(5) 重启 Ambari 服务 器 。 





ambari-server restart 


(6) 登录 Ambari Web 控制 台 。 
在 浏览 器 中 打开 http://172.16.1.124:8080， 默 认 的 用 户 名 和 密码 都 是 admin, ffi. HAWQ 
服务 已 经 可 用 。 


(7) 选择 HDFS 一 Configs 标签 。 
(8) 配置 HDFS 。 


选择 Settings 标签 ， 修 改 DataNode max data transfer threads 为 40960。 

选择 Advanced 标签 ， 点 开 DataNode， 设 置 DataNode directories permission 为 750。 
单 击 General， 设 置 Access time precision 4 0. 

单 击 Advanced hdfs-site, 设置 表 2-6 所 示 属 性 的 值 。 如 果 属 性 不 存在 ,就 选择 Custom 
hdfs-site， 单 击 Add property... 添加 属性 并 设置 表 2-6 中 所 示 的 值 。 
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3€ 2-6 hdfs-site 属性 














Property Setting 

dfs.allow.truncate true 

dfs.block.access.token.enable false for an unsecured HDFS cluster, or true for a secure cluster 
dfs.block.local-path-access.user gpadmin 


HDFS Short-circuit read 
dfs.client.socket-timeout 300000000 


dfs.client.use.legacy.blockreader.local false 





dfs.datanode.handler.count 60 





dfs.datanode.socket.write.timeout 7200000 





dfs.namenode.handler.count 600 











dfs.support.append 


(9) 点 开 Advanced core-site, 设置 表 2-7 所 示 属 性 的 值 。 如 果 属 性 不 存在 , 就 选择 Custom 
core-site， 单 击 Add property… 添加 属性 并 设置 表 2-7 中 所 示 的 值 。 


表 2-7 core-site 属性 





Property Setting 


ipe.client.connection.maxidletime 3600000 
ipe.client.connect.timeout 300000 





ipe.server.listen.queue.size 3300 


(10) 单 击 Save 保存 配置 。 

(11) 在 继续 后 面 的 步骤 前 先 单 击 Restart 重启 服务 。 

(12) 在 主页 选择 Actions 一 Add Service。 

(13) 从 服务 列表 选择 HAWQ 和 PXF， 单 击 Next， 显 示 Assign Masters 页 o 

(14) 选 择 HAWQ Master 和 HAWQ Standby 的 主机 ,或 接受 默认 值 , 单 击 Next 显示 Assign 
Slaves and Clients 页 。 

(15) 选择 运行 HAWQ Segments 和 PXF 的 主机 , 或 接受 默认 值 , 单 击 Next. Add Service 
助手 会 基于 可 用 的 Hadoop 服务 自动 为 HAWQ 选择 主机 。 注 意 ，PXF 必须 安装 在 NameNode、 
Standby NameNode 和 每 一 个 DataNode 节点 上 ， 而 HAWQ Segment 必须 安装 在 每 个 DataNode 
节点 上 。 

(16) 在 Customize Services 页 面 接受 默认 设置 。 

(17) 单 击 Advanced 标签 ， 输 入 HAWQ 系统 用 户口 令 ， 单 击 Next. 

C18) 在 后 面 的 页 面 均 接受 默认 值 ， 连 续 单 击 Next. 

(19) 最 后 单 击 Complete. WR Ambari 提示 集群 上 的 组 件 需 要 重启 , 选择 Restart— Restart 








32 





启 所 有 受 影 响 的 服务 。 
(20) 验证 HAWQ 安装 。 





用 gpadmin 用 户 登 录 HAWQ Master 所 在 主机 ， 执 行 下 面 的 命令 : 


source /usr/local/hawq/greenplum path.sh  # 设置 HAWO 环境 变量 
psql -d postgres 

create database test; 

\c test 

create table t (i int); 

insert into t select generate_series(1,100); 

\timing 

select count(*) from t; 


结果 如 下 所 示 。 


[root@hdp3 ~]# su - gpadmin 

[gpadmin@hdp3 -]$ source /usr/local/hawq/greenplum path.sh 
[gpadmin@hdp3 ~]$ psql -d postgres 

psql (8.2.15) 

Type "help" for help. 


postgres=# create database test; 

CREATE DATABASE 

postgres=# \c test 

You are now connected to database "test" as user "gpadmin". 
test=# create table t (i int); 

CREATE TABLE 

test=# insert into t select generate_series(1,100); 
INSERT 0 100 

test=# \timing 

Timing is on. 

test=# select count(*) from t; 

count 


Time: 135.211 ms 
test=# 


至 此 ，HAWQ 2.1.1 集群 安装 部 署 完成 。 


33 


2.6 mast HAWQ 


HAWQ 作为 Hadoop 上 的 一 个 服务 提供 给 用 户 ， 与 其 他 所 有 服务 一 样 ， 最 基本 的 操作 就 
是 启动 、 停 止 、 重 启 服务 。 要 完成 这 些 操作 ， 需 要 适当 的 环境 设置 。 下 面 就 HAWQ 管理 的 一 
些 基 础 概念 、 操 作 环境 、 启 动 停止 及 其 推荐 的 操作 进行 讨论 。 





2.6.1 基本 概念 


如 果 将 系统 管理 与 开发 分 离 ， 那 这 部 分 内 容 严 格 说 应 该 是 HAWQ 系统 管理 员 所 关心 的 。 
要 利用 好 HAWQ 集群 ， 应 该 有 一 些 Linux/UNIX 系统 管理 、 数 据 库 管理 系统 、DBA 和 SQL 
等 必 备 知识 和 经 验 .-HAWQ 服务 器 实际 上 是 一 个 以 HDFS 作为 物理 存储 的 分 布 式 数据 库 系统 ， 
f$ Oracle, MySQL 等 软件 一 样 ， 是 一 个 真正 的 数据 库 。HAWQ 代码 源 自 Greenplum， 而 
Greenplum 是 在 PostgreSQL 基础 上 开发 的 , 这 种 沿袭 关系 使 得 HAWQ 天 生 具 有 完整 的 数据 库 
特性 ,就 连 HAWQ 的 官方 文档 也 始终 与 PostgreSQL 文档 保持 一 致 .这 点 与 其 他 SQL-on-Hadoop 
方案 显著 不 同 。 

1. HAWQ 用 户 

HAWQ 支持 对 用 户 及 其 操作 权限 的 管理 。HAWQ 系统 安装 后 ， 数 据 库 中 包含 一 个 预定 义 
的 超级 用 户 ， 该 用 户 与 安装 HAWQ 的 操作 系统 用 户 同名 ， 叫 做 gpadmin. gpadmin 作为 操作 
系统 用 户 ， 可 以 使 用 HAWQ 的 命令 行 工具 执行 管理 任务 ， 如 启动 或 停止 HAWQ、 扩 展 集群 、 
删除 集群 中 的 节点 等 。 而 作为 数据 库 用 户 ，gpadmin 相当 于 Oracle 的 sys 或 MySQL 的 root, 
具有 数据 库 的 最 大 权限 。HAWQ 管理 员 用 户 可 以 创建 其 他 数据 库 用 户 ， 并 向 他 们 赋予 管理 或 
操作 数据 库 对 象 的 权限 。 

可 以 选择 使 用 Ambari 或 命令 行 管理 HAWQ 集群 。 当 使 用 Ambari 管理 HAWQ 时 ， 用 
Ambari 的 管理 员 用 户 登录 Web 控制 台 页 面 即 可 ， 不 需要 使 用 gpadmin. 

2. HAWQ 系统 部 署 

从 前 面 的 安装 过 程 中 看 到 ， 一 个 典型 的 HAWQ 部 署 包括 一 个 HDFS NameNode、 一 个 
HAWQ Master、 一 个 HAWQ Standby， 以 及 多 个 HAWQ Segment 与 HDFS DataNode. HAWQ 
集群 中 还 可 能 包括 PXF 或 其 他 Hadoop 服务 。 

使 用 Ambari 在 HDP 上 安装 HAWQ 时 ， 会 为 HAWQ 节点 自动 选择 HDP 集群 中 的 主机 ， 
只 要 求 HAWQ Master 和 Standby 运行 在 不 同 主机 上 ，Segment 可 以 和 Master、Standby 运行 在 
相同 主机 上 ， 通 常 在 每 个 DataNode 上 运行 一 个 Segment。 在 我 们 的 实验 环境 中 ，Ambari 选择 
hdp3 作为 Master、hdp2 作为 Standby, HDP 集群 中 的 所 有 4 台 主 机 ,每 个 上 面 运行 一 个 Segment。 


2.6.2 ”操作 环境 
在 操作 HAWQ 集群 前 ， 必 须 设置 HAWQ 所 需 的 环境 。 
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1. 设置 HAWQ 操作 环境 
HAWQ 提供 了 一 个 名 为 greenplum path.sh 的 shell 脚本 文件 ， 位 于 HAWQ 安装 的 根 目录 
下 ， 用 于 设置 HAWQ 所 需 的 环境 变量 。 这 些 环境 变量 中 最 重要 的 是 SGPHOME， 它 指定 了 
HAWQ 安装 的 根 目 录 ， 典 型 的 HAWQ 根 目 录 是 /usrlocalhawq。 其 他 环境 变量 包括 用 于 查找 
HAWQ 相关 文件 的 SPATH 、 动 态 链接 库 路 径 SLD LIBRARY PATH 、python 路 径 
$PYTHONPATH 、openssl 配置 文件 SOPENSSL CONF HDFS3 客户 端 配置 文件 
$LIBHDFS3_ CONF. YARN 客户 端 配置 文件 SLIBYARN_CONF 、HAWQ 的 配置 文件 
$HAWQSITE_ CONF 等 。 默 认 设置 可 以 满足 大 多 数 需求 。 如 果 环 境 有 特殊 要 求 ， 可 以 将 相关 
环境 变量 添加 到 greenplum path.sh 文件 中 。 
执行 以 下 步骤 设置 HAWQ 操作 环境 : 
(1) 用 gpadmin 操作 系统 用 户 登 录 HAWQ 节点 ， 或 者 切换 到 gpadmin: 
[root@hdp1 ~]# su - gpadmin 
[gpadmin@hdp1 ~]$ 
(2) 通过 执行 greenplum_path.sh 文件 设置 HAWQ 操作 环境 : 
[gpadmin@hdp1 ~]$ source /usr/local/hawq/greenplum_path.sh 
(3) 编辑 .bash_profile 或 其 他 shell 资源 文件 在 登录 时 自动 执行 greenplum_path.sh: 
[gpadmin@hdp1 -]$ echo "source /usr/local/hawq/greenplum path.sh" >> 
~/.bash_profile 
(4) 根据 需要 在 shell 初始 化 文件 中 设置 与 具体 部 署 相关 的 HAWQ 特定 环境 变量 ， 包 括 
PGAPPNAME、PGDATABASE、PGHOST、PGPORT 和 PGUSER 等 。 设 置 这 些 环 境 变 量 可 简 
化 psql 命令 行 ， 通 过 提供 默认 值 省 去 在 命令 行 中 输入 相关 选项 。 例 如 : 
© ”如 果 定制 了 HAWQ 主 节点 的 端口 号 ， 在 shell 初始 化 文件 中 添加 如 下 一 行 ， 设 置 
PGPORT 环境 变量 使 该 端口 号 成 为 默认 值 : export PGPORT-10432. 
€ 如 果 经 常 操作 一 个 特定 数据 库 ， 在 shell 资源 文件 中 添加 如 下 一 行 ， 设 置 
PGDATABASE 环境 变量 使 其 成 为 默认 值 : export PGDATABASE=<database-name>。 
2. HAWQ 文件 与 目录 
表 2-8 说 明 HAWQ 默认 安装 的 一 些 文件 和 目录 。 
#28 HAWQ 文件 与 目录 




















文件 /目录 内 容 

SHOME/hawgAdminLogs/ 默认 的 HAWQ 管理 应 用 程序 日 志文 件 目录 
$GPHOME/greenplum_path.sh HAWQ 环境 设置 脚本 

SGPHOME/bin/ HAWQ 客户 端 、 数 据 库 和 管理 应 用 程序 
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CBR) 




















文件 /目录 内 容 

SGPHOME/etc/ HAWQ 配置 文件 ， 包 括 hawq-site.xml 
SGPHOME/include/ HDFS, PostgreSQL. libpq 的 头 文件 
SGPHOME!/lib/ HAWQ 库 文件 

SGPHOME/lib/postgresql/ PostgreSQL 共享 库 和 JAR 文件 
SGPHOME/share/postgresql PostgreSQL 及 其 过 程 化 语言 的 示例 与 脚本 


HAWQ Master 和 Segment 的 默认 数据 目录 
HAWQ Master 和 Segment 的 默认 日 志 目 录 


/data/hawq/[master|segment]/ 


/data/hawq/[master|segment]/pg_log/ 














letc/pxf/cont/ PXF 服务 的 配置 文件 

/usr/lib/pxf/ PXF 服务 插件 共享 库 

/vat/log/pxf/ PXF 日 志 目录 

/ust/hdp/current/ HDP 运行 时 配置 文件 
2.6.3 ”基本 操作 


在 HAWQ 系统 中 的 Master 节点 和 所 有 的 Segment 节点 上 都 运行 一 个 PostgreSQL 数据 库 
服务 器 实例 。 例 如 ， 在 hdp3 上 可 以 看 到 如 下 两 个 postgres 进程 : 


/usr/local/hawq 2 1 1 0/bin/postgres -D /data/hawq/master -i -M master -p 5432 


--silent-mode-true 

/usr/local/hawq 2 1 1 0/bin/postgres -D /data/hawq/segment -i -M segment -p 
40000 --silent-mode-true 

所 有 这 些 DBMS 一 起 被 当 作 单 一 DBMS 启动 和 停止 , 通过 这 种 方式 能 够 统一 启动 、 停 止 
所 有 实例 。 因 为 HAWQ 系统 被 分 布 于 多 个 机 器 上 ， 所 以 启动 与 停止 HAWQ 系统 的 过 程 不 同 
于 标准 的 PostgreSQL DBMS 的 启动 停止 过 程 。 

启动 和 停止 HAWQ 的 命令 分 别 是 hawq start 和 hawq stop。hawdq 命令 行 工具 是 一 个 python 
脚本 ,位 于 GPHOME/bin 目录 下 。 可 以 在 命令 行 输入 hawq -h. hawq start -h 或 hawq stop -h 
等 获得 相关 命令 的 联机 帮助 。 启 动 停 止 HAWQ 集群 的 命令 都 以 gpadmin 操作 系统 用 户 执行 。 

需要 注意 的 是 ， 不 要 使 用 操作 系统 的 kil 命令 终止 任何 postgres 进程 。 和 其 他 所 有 数据 库 
管理 系统 一 样 ， 强 杀 极 有 可 能 引起 数据 不 一 致 的 问题 。 每 个 客户 端 连 接 到 HAWQ 时 ， 都 会 在 
Master 节点 上 产生 一 个 postgres 进程 ， 这 与 Oracle 的 专用 服务 器 类 似 。 终 止 用 户 会 话 postgres 
进程 的 正确 方法 是 使 用 pg cancel backend() 数 据 库 命令 。 下 面 是 一 个 例子 : 


select datname,procpid,current query from pg stat activity; 


其 中 ，datname 是 会 话 连接 的 数据 库 名 ，procpid 是 会 话 对 应 的 操作 系统 进程 号 ， 
current query 是 会 话 当前 执行 的 SQL 语句 ， 查 询 结果 如 下 : 
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gpadmin=# select datname,procpid,current query from pg stat activity; 

datname | procpid | current query 

= ll ——————————————— ————— 

mytest | 354310 | <IDLE> 

gpadmin | 351905 | select datname,procpid,current_query from 
pg_stat_activity; 

(2 rows) 


执行 下 面 的 语句 取消 354310 进程 。 

select pg cancel backend(354310); 

不 能 取消 自己 本 身 的 会 话 : 

gpadmin=# select pg cancel backend(351905); 


ERROR: canceling statement due to user request 
gpadmin=# 


1. 启动 HAWQ 

初始 安装 或 执行 hawq init cluster 命令 后 , HAWQ 集群 会 自动 启动 。 该 命令 将 初始 化 HAWQ 
的 Master 实例 和 每 一 个 Segment 实例 ,执行 这 条 命令 要 求 HAWQ 在 HDFS 上 的 数据 目录 为 空 ， 
也 就 是 说 先 要 清除 所 有 用 户 数 据 ， 因 此 一 般 不 要 手动 执行 。 

在 Master 实例 上 运行 hawq start 命令 ， 启 动 HAWQ 系统 。 下 面 的 命令 将 启动 HAWQ 系 
统 的 Master、Standby 和 所 有 Segment， 并 行 执行 且 协 调 这 个 过 程 。 该 命令 只 能 在 Master 节点 
上 执行 。 

hawq start cluster 

只 启动 HAWQ 的 Master 节点 ， 而 不 启动 Segment 节点 ， 只 能 在 Master 节点 上 执行 : 

hawq start segment 

启动 本 地 Segment 节点 : 

hawq start segment 

启动 Standby 节点 : 

hawq start standby 

-次 启动 所 有 Segment 节点 : 

hawq start allsegments 

如 果 希 望 忽 略 ssh 无 法 连接 的 主机 ， 可 以 使 用 hawq start --ignore-bad-hosts 命令 。 

2. 重启 HAWQ 


hawq restart 命令 后 跟 适 当 的 集群 或 节点 类 型 ， 将 停止 HAWQ， 然 后 在 完全 终止 后 重启 
HAWQ。 如 果 Master 或 Segment 已 经 停止 ， 重 启 不 受 影响 。 








37 


重启 整个 HAWQ 集群 ， 只 能 在 Master 节点 上 执行 : 





hawq restart cluster 


只 重启 Master 节点 ， 只 能 在 Master 节点 上 执行 : 





hawq restart master 
重启 本 地 Segment 节点 : 


hawq restart segment 





重启 Standby: 
hawq restart standby 
-次 重启 所 有 Segments: 
hawq restart allsegments 
3. 只 重新 加 载 配置 文件 
hawg stop 命令 能 够 在 不 中 断 服务 的 情况 下 , 重 载 pg_hba.conf 配置 文件 (连接 认证 文件 ) ， 
以 及 hawq-site.xml 和 pg_hba.conf 文件 中 的 运行 时 参数 ， 配 置 在 新 连接 中 生效 。 但 许多 服务 器 
配置 参数 需要 系统 完全 重启 Chawg restart cluster) 才能 生效 。 
使 用 hawq stop 命令 重 载 配置 文件 而 不 停止 系统 : 
hawq stop cluster --reload 
或 者 
hawq stop cluster -u 
4. 以 维护 模式 启动 Master 
可 以 只 启动 Master 节点 执行 维护 或 管理 任务 ， 而 不 影响 Segment 节点 上 的 数据 。 维 护 模 
式 是 一 个 超级 用 户 模式 ， 应 该 只 在 实施 维护 任务 时 使 用 。 例 如 ， 在 维护 模式 下 ， 人 允许 连接 到 
Master 节点 实例 上 的 数据 库 并 编辑 系统 目录 设置 。 
(1) 在 主 节点 上 使 用 -m 选项 运行 hawq start， 启 动 维护 模式 : 








hawq start master -m 
(2) 为 维护 系统 目录 ， 连 接 到 维护 模式 下 的 Master 节点 : 


PGOPTIONS-'-c gp session role-utility' psql templatel 


(3) 完成 管理 任务 后 ， 以 生产 模式 重启 Master 节点 : 





hawq restart master 
错误 地 使 用 维护 模式 连接 ， 可 能 造成 HAWQ 系统 状态 不 一 致 ， 因 此 应 该 具有 专家 级 用 户 
执行 这 个 操作 。 
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5. 停止 HAWQ 


hawg stop cluster 命令 停止 HAWQ 系统 。 当 此 命令 执行 时 ， 会 停止 所 有 系统 中 的 postgres 
进程 ， 包 括 Master. Standby 和 所 有 Segment 实例 。hawq stop cluster 命令 使 用 默认 的 最 多 64 
个 并 行 线程 停止 所 有 构成 HAWQ 集群 的 Segment。 在 停止 前 ， 系 统 会 等 待 任何 活动 的 事务 结 
束 。 为 了 立即 停止 HAWQ, 可 以 使 用 fast 停止 方式 ,命令 hawq stop master. hawq stop segment, 
hawq stop standby 和 hawq stop allsegments 分 别 用 于 停止 Master 节点 、 本 地 Segment 节点 、 
Standby 节点 和 集群 中 的 所 有 Segment。 只 停止 Master 节点 不 会 终止 整个 集群 。 下 面 是 两 个 停 
止 HAWQ 集群 的 例子 。 
正常 停止 HAWQ 集群 : 





hawq stop cluster 

以 快速 模式 停止 HAWQ: 

hawq stop cluster -M fast 

-M 选项 提供 了 smart、fast、immediate 三 种 停止 方式 ， 类 似 于 Oracle 中 shutdown 命令 的 
normal、immediate 和 abort。 

€ smat 是 默认 值 ， 如 果 发 现 数据 库 中 有 活动 的 连接 ,停止 失败 , 会 发 出 一 个 错误 消息 : 


20170302:15:37:00:376986 hawq stop:hdp3:gpadmin-[INFO]:-Stop hawq cluster 


A hawq stop:hdp3:gpadmin- [ERROR] :-Active connections. 
Aborting shutdown... 

[gpadmin@hdp3 ~]$ 

€ fast 方式 中 断 并 回 滚 当前 处 理 的 任何 事务 ， 此 选项 是 安全 的 。 

€ immediate 方式 终止 正在 处 理 的 事务 ， 并 立即 关 掉 所 有 相关 postgres 进程 。 数 据 库 服 
务 器 不 会 完成 事务 处 理 , 也 不 会 清除 任何 临时 数据 或 使 用 中 的 工作 文件 。 工作 文件 的 
概念 与 MySQL 的 临时 文件 类 似 。 查 询 执行 过 程 中 ， 如 果 不 能 在 内 存 进 行 ， 就 会 在 磁 
盘 创 建 工作 文件 。 不 推荐 使 用 immediate 停止 方式 。 在 某 些 情况 下 ，immediate 可 能 
造成 数据 库 损 坏 ， 并 需要 手动 恢复 。 

6. 启动 /停止 HAWQ 集群 最 佳 实践 

为 了 更 好 地 使 用 hawq start 和 hawq stop 管理 系统 ，HAWQ 推荐 使 用 下 面 的 最 佳 实践 。 


C1) 停止 集群 前 执行 checkpoint SQL 命令 ， 将 所 有 数据 文件 中 更 新 的 数据 刷新 回 磁盘 ， 


检查 点 快照 中 被 还 原 。 

(2) f£ Master 节点 所 在 主机 上 执行 hawq stop cluster 命令 停止 整个 HAWQ 系统 。 

(3) 要 停止 Segment， 并 关 掉 任何 运行 的 查询 ， 而 不 造成 数据 丢失 或 不 一 致 的 问题 ， 在 
Master 上 使 用 fast 停止 模式 : hawg stop cluster -M fast. 
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(4) 使 用 hawq stop master 只 停止 Master 节点 。 如 果 因 为 存在 运行 着 的 事务 而 不 能 停止 
Master 节点 ,尝试 使 用 fast 方式 。 如 果 fast 无 法 工作 ， 再 使 用 immediate 方式 。 使 用 immediate 
会 引发 警告 ， 因 为 在 系统 重新 启动 时 ， 会 导致 执行 月 溃 恢 复 : hawq stop master -M fast 或 hawq 
stop master -M immediate. 

(5) 如 果 已 经 修改 并 希望 重 载 服务 器 参数 设置 ， 并 且 HAWQ 数据 库 上 有 活动 连接 ， 使 
用 命令 : hawq stop master -u -M fast。 

(6) 当 停止 本 地 Segment 或 所 有 Segment 时 , 使 用 smart Bist, 这 也 是 默认 值 。 TE Segment 
上 使 用 fast 或 immediate 模式 是 无 效 的 , 因为 Segment 是 无 状态 的 : hawq stop segment 或 hawq 
stop allsegments 。 

CI) 典型 地 ， 应 该 总 是 使 用 hawq start cluster 或 hawq restart cluster 启动 集群 。 如 果 使 用 
hawg start standby|master|segment 的 方式 分 别 启动 节点 ， 确 保 总 是 在 启动 Master 节点 之 前 启动 
Standby 节点 ， 否 则 Standby 可 能 与 Master 数据 不 同步 。 








小 结 


建议 下 载 HAWQ 编译 后 的 安装 包 ， 用 Ambari 安装 部 署 HAWQ 集群 。HAWQ "iip Ue 
容 HDP 一 种 Hadoop 发 行 版 本 , 其 安装 过 程 通常 按照 Ambari、 HDP, HAWQ 的 顺序 依次 进行 。 
安装 前 需要 确认 各 软件 之 间 的 版 本 兼容 性 。 使 用 hawq start 和 hawq stop 启 停 HAWQ 时 , 建议 
参考 其 最 佳 实践 。 
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m3 


ch ote 
< 话 接 管理 > 


HAWQ 服务 启动 后 ， 还 要 经 过 一 系列 配置 ， 才 能 被 客户 端 程序 所 连接 。 本 章 说 明 如 何 配 
置 客户 端 身份 认证 ， 以 及 HAWQ 的 权限 管理 机 制 。 我 们 还 将 演示 psql 和 Kettle 连接 HAWQ 
的 示例 。psql 作为 HAWQ 最 常用 的 命令 行 客户 端 工 具 ， 可 类 比 为 mysql 命令 之 于 MySQL XX 
据 库 服务 器 的 关系 ， 因 此 我 们 还 将 psql 与 mysql 命令 常用 的 相似 功能 做 一 比较 。 本 章 最 后 还 
列举 一 些 客户 端 连接 HAWQ 数据 库 的 常见 问题 排查 。 


配置 客户 端 身份 认证 


上 一 章 曾经 提 到 ，HAWQ 系统 初始 安装 后 ， 数 据 库 包 含 一 个 预定 义 的 超级 用 户 。 这 个 用 
户 和 安装 HAWQ 的 操作 系统 用 户 具有 相同 的 名 字 ， 叫 做 gpadmin。 默 认 系统 只 允许 使 用 
gpadmin 用 户 从 本 地 连接 至 数据 库 。 为 了 允许 任何 其 他 用 户 从 本 地 或 远程 主机 连接 数据 库 ， 需 
要 配置 HAWQ 允许 此 类 连接 。 

1. 配置 允许 连接 至 HAWQ 

HAWQ 从 代码 级 可 以 追溯 到 PostgreSQL。 它 的 客户 端 访问 与 认证 是 由 标准 的 PostgreSQL 
基于 主机 的 认证 文件 pg_hba.conf 所 控制 的 。Master 和 每 个 Segment 的 数据 目录 下 都 存在 一 个 
pg_hba.conf 文件 。 在 HAWQ 中 ，Master 实例 的 pg hba.conf 文件 控制 客户 端 对 HAWQ 系统 的 
访问 和 认证 。Segment 中 pg_hba.conf 文件 的 作用 只 是 允许 每 个 Segment 作为 Master 节点 主机 
的 客户 端 连接 数据 库 ， 而 Segment 本 身 并 不 接受 其 他 客户 端的 连接 。 正 因 如 此 ， 不 要 修改 
Segment 实例 的 pg_hba.conf 文件 。 

pg_hba.conf 的 格式 是 普通 文本 ， 其 中 每 行 一 条 记录 ， 表 示 一 个 认证 条 目 ，HAWQ 忽略 空 
行 和 任何 # 注 释 字 符 后 面 的 文本 。 一 行 记录 由 四 个 或 五 个 以 空格 或 tab 符 分 隔 的 字段 构成 。 如 
果 字 段 值 中 包含 空格 ， 则 需要 用 双 引 号 引起 来 并且 记录 不 能 跨行 。 与 MySQL 类 似 ，HAWQ 
也 接受 TCP 连接 和 本 地 的 UNIX 套 接 字 连 接 。 

每 个 TCP 连接 客户 端的 访问 认证 记录 具有 以 下 格式 : 





















































host|hostssl|hostnossl <database> «role» 
<CIDR-address>|<IP-address>,<IP-mask> <authentication-method> 


本 地 UNIX 域 套 接 字 的 访问 记录 具有 下 面 的 格式 : 


local <database> <role> <authentication-method> 
A 3-1 描述 了 每 个 字段 的 含义 。 
表 3-1 pg_hba.conf 文件 中 的 字段 含义 








字段 描述 

local 匹配 使 用 UNIX 域 套 接 字 的 连接 请 求 。 如 果 没 有 此 种 类 型 的 记录 ， 则 不 允许 UNIX 域 
套 接 字 连 接 

host 匹配 使 用 TCP/IP 的 连接 请 求 。 除 非 在 服务 器 启动 时 使 用 了 适当 的 listen_addresses 服 
务 器 配置 参数 〈 默 认 值 为 “* ”， 人 允许 所 有 IP 连接 ) ， 否 则 不 能 远程 TCP/IP 连接 

hostssl 匹配 使 用 SSL 加 密 的 TCPAP 连接 请 求 。 服 务 器 启动 时 必须 通过 设置 ssl 配置 参数 启用 
SSL 

hostnossl 匹配 不 使 用 SSL 的 TCP/IP 的 连接 请 求 

<database> 指定 匹配 此 行 记录 的 数据 库 名 。 值 “all” 表 示人 允许 连接 所 有 数据 库 。 多 个 数据 库 名 用 
逗号 分 隔 。 也 可 以 指定 一 个 包含 数据 库 名 的 文件 ， 在 文件 名 前 加 “@” 

<role> 指定 匹配 此 行 记 录 的 数据 库 角 色 名 。 值 “all” 表 示 所 有 角色 。 如 果 指定 的 角色 是 一 个 


组 并 且 想 包含 所 有 的 组 成 员 ， 在 角色 名 前 面 加 一 个 “+”。 多 个 角色 名 可 以 通过 逗号 
分 隔 。 也 可 以 指定 一 个 包含 角色 名 的 文件 ， 在 文件 名 前 加 “@” 


<CIDR-address> ”| 指定 此 行 记录 匹配 的 客户 端 主机 的 TP 地 址 范围 。 它 包含 一 个 以 标准 点 分 十 进 制 记 法 表 
示 的 IP 地 址 ， 以 及 一 个 CIDR HEKE IP 地 址 只 能 用 数字 表示 ， 不 能 是 域名 或 主机 
名 。 掩 码 长 度 标识 客户 端 IP 地 址 必须 匹配 的 高 位 数 。 在 IP 地 址 、 斜 本 和 CIDR 掩 码 
长 度 之 间 不 能 有 空格 。CIDR 地 址 典型 的 例子 有 单一 主机 〈 如 192.0.2.2/32) 、 小 型 网 
fk CA 192.0.2.0/24) 、 大 型 网 络 ( 如 192.0.0.0/16) 。 指 定单 一 主机 时 ，IPv4 的 CIDR 
掩 码 是 32，Ipv6 的 是 128。 网 络 地 址 不 要 省 略 尾部 的 堆 


<IP-address>, 这 个 字段 是 另 一 种 卫 地 址 表示 方法 用 掩 码 地 址 替换 掩 码 长 度 例如 255.255.255.255 
对 应 的 CIDR 掩 码 长 度 是 32。 此 字段 用 于 host, hostssl 和 hostnossl 记录 











<IP-mask> 
<authentication-me | 指定 连接 认证 时 使 用 的 方法 。HAWQ 支持 PostgreSQL 9.0 所 支持 的 认证 方法 ， 如 信任 
thod> 认证 、 口 令 认 证 、Kerberos 认证 、 基 于 Ident 的 认证 、PAM 认证 等 


2. 配置 pg_hba.conf 文件 

这 个 例子 显示 如 何 编辑 Master 的 pg_hba.conf 文件, 以 允许 远程 客户 端 使 用 加 密 口 令 认证 ， 
用 所 有 角色 访问 所 有 数据 库 。 对 于 更 高 安全 要 求 的 系统 ,应 考虑 从 Master 的 pg_hba.conf 文件 
中 删除 所 有 信任 认证 方式 (trust) 的 连接 。 信 任 方式 意味 着 角色 被 授予 访问 权限 而 不 需要 任何 
认证 ， 因 此 会 绕 过 所 有 安全 检查 。 


€D) 从 hawq-sitexml 文件 的 hawq_master_directory 属性 获得 Master 数据 目录 的 位 置 ， 并 
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使 用 文本 编辑 器 打开 此 目录 下 的 pg_hba.conf 文件 。 
EI 在 该 文件 中 ， 为 允许 的 每 个 连接 增加 一 行 。 记 录 逐 行 读 取 ， 因 此 记录 的 顺序 至 关 重要 。 


local all gpadmin ident 


host all gpadmin 127.0.0.1/28 trust 
host all gpadmin 251/128 trust 
host all gpadmin 172:16:1:126/32 trust 
host all gpadmin fe80::250:56ff:fea5:526f/128 trust 
host all gpadmin ily PAR Saale Gy fe 4 trust 
host all gpadmin Tuo TOTIS trust 
host all gpadmin 172.16.1.0/24 trust 
host all jsmith 172.16.1.0/24 md5 

host all testdb 0.0.0.0/0 password 


Eio 保存 并 关闭 文件 。 
CX ER pg hbaconf 文件 的 配置 ， 使 修改 生效 : 


hawq stop cluster -u -M fast 


3. 限制 并 发 连接 数 


HAWQ 的 某 些 资源 分 配 是 以 连接 为 基础 的 ， 因 此 最 好 配置 允许 的 最 大 连接 数 。 为 了 限制 
HAWQ 系统 的 并 发 会 话 数量 , 设置 Master 的 max. connections 服务 器 配置 参数 ,以 及 Segment 
的 seg max connections 服务 器 配置 参数 。 这 些 参数 是 本 地 参数 , 因此 必须 在 所 有 HAWQ 实例 
的 hawg-site.xml 文件 中 进行 设置 。 

如 果 设 置 了 max_connections， 必 须 也 要 设置 其 依赖 参数 max_prepared_transactions。 该 参 
数值 必须 大 于 等 于 max_connections 的 值 ， 并 且 所 有 HAWQ 实例 要 配置 相同 的 值 。 下 面 是 一 
个 SGPHOME/etc/hawq-site.xml 配置 示例 : 


<property> 
<name>max_connections</name> 
<value>500</value> 

</property> 

<property> 
<name>max_prepared_transactions</name> 
<value>1000</value> 

</property> 

<property> 
<name>seg_max_connections</name> 
<value>3000</value> 

</property> 


以 下 是 对 这 些 参数 具体 含义 的 说 明 。 
€ max connections: 限制 Master 允许 的 最 大 客户 端 并 发 连接 数 ,默认 值 是 200. 在 HAWQ 
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系统 中 ， 用 户 客户 端 只 能 通过 Master 实例 连接 到 系统 。 此 参数 的 值 越 大 ，HAWQ € 
要 的 共享 内 存 越 多 。shared buffers 参数 设置 一 个 HAWQ Segment 实例 使 用 的 共享 内 
存 缓冲 区 大 小 ， 默 认 值 是 123MB， 最 小 值 是 128KB 与 16KB * max connections 的 较 
大 者 。 如 果 连 接 HAWQ 时 发 生 共享 内 存 分 配 错误 ， 可 以 尝试 增加 SHMMAX 或 
SHMALL 操作 系统 参数 的 值 ， 或 者 降低 shared_buffers 或 者 max_connections 参数 的 
值 解决 此 类 问题 。 

€ seg max connections: 限制 Segment 允许 对 Master 发 起 的 最 大 并 发 连接 数 ， 默 认 值 
是 1280。 该 参数 应 该 设置 为 max_connections 的 5-10 倍 。 增 加 此 参数 时 必须 同时 增 
加 max prepared transactions 参数 的 值 。 与 Master 类 似 ， 此 参数 的 值 越 大 ，HAWQ 
需要 的 共享 内 存 越 多 。 

€ max prepared transactions: 设置 同时 处 于 准备 状态 的 事务 数 。HAWQ 内 部 使 用 准备 
事务 保证 跨 Segment 的 数据 完整 性 。 该 参数 值 必 须 大 于 等 于 max_connections， 并 且 
在 Master 和 Segment 上 应 该 设置 成 相同 的 值 。 


增加 这 些 值 会 引起 HAWQ 需要 更 多 的 共享 内 存 。 为 了 缓解 内 存 使 用 压力 ， 可 以 考虑 降低 
其 他 内 存 相关 的 服务 器 配置 参数 的 值 ， 如 gp cached segworkers threshold 等 。 相 对 于 手动 编 
辑 每 个 节点 的 hawq-site.xml 文件 ， 使 用 Ambari 或 命令 行 配置 这 些 参 数 更 为 简单 。 

(1) 使 用 Ambari 
€D) 通过 HAWQ service Configs 一 Advanced 一 Custom hawq-site 一 Add Property .… 配置 


max connections, seg max connections 和 max prepared transactions 属性 。 


CX02 选择 Service Actions Restart All 重启 所 有 相关 服务 使 配置 生效 。 
(2) 使 用 命令 行 
EN) 作为 管理 员 登 录 HAWQ 的 Master 节点 并 设置 环境 : 
source /usr/local/hawq/greenplum path.sh 


人 2 使 用 hawq config 应 用 程序 设置 max connections, seg max connections 和 
max_prepared_transactions 参数 值 ， 例 如 : 


$ hawq config -c max_connections -v 100 
$ hawq config -c seg_max_connections -v 640 
$ hawq config -c max prepared transactions -v 200 


EIo £4 HAWQ 集群 重 载 新 的 配置 值 。 
$ hawq restart cluster 
204 使 用 hawq config 的 -s 选项 显示 服务 器 配置 参数 的 值 ， 确 认 配 置 生效 : 


$ hawq config -s max_connections 
$ hawq config -s seg max connections 
$ hawq config -s max prepared transactions 
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25) A 


pg hba.conf 文件 限定 了 允许 连接 HAWQ 的 客户 端 主机 、 用 户 名 、 访 问 的 数据 库 、 认 证 方 
式 等 。 用 户 名 \ 口 令 以 及 用 户 对 数据 库 对 象 的 使 用 权限 保存 在 HAWQ 的 元 数据 表 中 (pg_authid、 


pg roles. pg class 等 ) 。 


3.2.1 HAWQ 中 的 角色 与 权限 


HAWQ 采用 基于 角色 的 访问 控制 机 制 。 通 过 角色 机 制 ， 简 化 了 用 户 和 权限 的 关联 性 。 
HAWQ 系统 中 的 权限 分 为 两 种 ， 系 统 权 限 和 对 象 权限 。 系 统 权限 是 指 系 统 规定 用 户 使 用 数据 
库 的 权限 ， 如 连接 数据 库 、 创 建 数 据 库 、 创 建 用 户 等。 对 象 权限 是 指 在 表 、 序 列 、 函 数 等 数据 
库 对 象 上 执行 特殊 动作 的 权限 , 其 权限 类 型 有 select. insert. update, delete, references. trigger. 
create、connect、temporary、execute 和 usage 等 。 

HAWQ 的 角色 与 Oracle. SQL Server 等 数据 库 中 的 角色 概念 有 所 不 同 。 这 些 系统 中 的 所 
谓 角色 是 权限 的 组 合 和 抽象 ,创建 角色 最 主要 的 目的 是 简化 对 用 户 的 授权 。 举 一 个 简单 的 例子 ， 
假设 需要 给 五 个 用 户 授 予 相 同 的 五 种 权限 ， 如 果 没 有 角色 , 需要 授权 二 十 五 次 , 而 如 果 把 五 种 
权限 定义 成 一 种 角色 ， 只 需要 先进 行 一 次 角色 定义 ， 再 授权 五 次 即 可 。 

HAWQ 中 的 角色 既 可 以 代表 一 个 数据 库 用 户 ， 又 可 以 代表 一 组 权限 。 角 色 所 拥有 的 预定 
义 的 系统 权限 是 通过 角色 属性 实现 的 。 角色 可 以 是 数据 库 对 象 的 属 主 , 也 可 以 给 其 他 角色 赋予 
访问 对 象 的 权限 。 角 色 可 以 是 其 他 角色 的 成 员 ， 成 员 角 色 可 以 从 父 角色 继承 对 象 权限 。 

HAWQ 系统 可 能 包含 多 个 数据 库 角 色 〈 用 户 或 组 ) 。 这 些 角色 并 不 是 运行 服务 器 上 操作 
系统 的 用 户 和 组 。 但 是 为 方便 起 见 ， 可 能 希望 维护 操作 系统 用 户 名 和 HAWQ 角色 名 的 关系 ， 
因为 很 多 客户 端 应 用 程序 ， 如 psql， 使 用 当前 操作 系统 用 户 名 作为 默认 的 角色 ，gpadmin 就 是 
最 典型 的 例子 。 

用 户 通 过 Master 实例 连接 HAWQ。Master 使 用 pg_hba.conf 文件 里 的 条 目 验证 用 户 的 角 
色 和 访问 权限 。 之 后 Master 以 当前 登录 的 角色 ， 从 后 台 向 Segment 实例 发 布 SQL 命令 。 系 统 
级 定义 的 角色 对 所 有 数据 库 都 是 有 效 的 。 为 了 创建 更 多 角色 ， 首 先 需 要 使 用 超级 用 户 gpadmin 
连接 HAWQ。 

配置 角色 与 权限 时 ， 应 该 注意 以 下 问题 : 


€ 保证 gpadmin 系统 用 户 安全 。HAWQ 需要 一 个 UNIX AP ID 安装 和 初始 化 HAWQ 
系统 。 这 个 系统 用 户 ID 就 是 gpadmin。gpadmin 用 户 是 HAWQ 中 默认 的 数据 库 超 级 
用 户 ,也 是 HAWQ 安装 及 其 底层 数据 文件 的 文件 系统 属 主 。 这 个 默认 的 管理 员 账 号 
是 HAWQ 的 基础 设计 ,缺少 这 个 用 户 系 统 无 法 运行 .并 且 , 没 有 方法 能 够 限制 gpadmin 
用 户 对 数据 库 的 访问 。 应 该 只 使 用 gpadmin 账号 执行 诸如 扩容 和 升级 之 类 的 系统 维护 
任务 。 任 何以 这 个 用 户 登 录 HAWQ 主机 的 人 ， 都 可 以 读 取 、 修 改 和 删除 任何 数据 ， 
尤其 是 系统 目录 相关 的 数据 库 访 问 权 力 。 因 此 ，gpadmin 用 户 的 安全 非常 重要 ， 仅 应 
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该 提供 给 关键 的 系统 管理 员 使 用 。 应 用 的 数据 库 用 户 应 该 永 不 作为 gpadmin 登录 。 

@ 赋予 每 个 登录 用 户 不 同 的 角色 。 出 于 记录 和 审核 目的 ， 每 个 登录 HAWQ 的 用 户 都 应 
该 被 赋予 相应 的 数据 库 角 色 。 对 于 应 用 程序 或 者 Web 服务 ， 最 好 为 每 个 应 用 或 服务 
创建 不 同 的 角色 。 

e ”使 用 组 管理 访问 权限 。 

e ”限制 具有 超级 用 户 角色 属性 的 用 户 。 超 级 用 户 角色 绕 过 HAWQ 中 所 有 的 访问 权限 检 
查 和 资源 队列 ， 所 以 只 应 该 将 超级 用 户 权限 授予 系统 管理 员 。 


322 ”管理 角色 及 其 成 员 

这 里 的 角色 指 的 是 一 个 可 以 登录 到 数据 库 , 并 开启 一 个 数据 库 会 话 的 用 户 。 使 用 CREATE 
ROLE 命令 创建 一 个 角色 时 ， 必 须 授予 login 系统 属性 〈 功 能 类 似 于 Oracle 的 connect 角色 ) ， 
使 得 该 角色 可 以 连接 数据 库 。 例 如 : 

create role jsmith with login; 

-个 数据 库 角 色 有 很 多 属性 , 用 以 定义 该 角色 可 以 在 数据 库 中 执行 的 任务 , 或 者 具有 的 系 

统 权 限 。 表 3-2 描述 了 有 效 的 角色 属性 。 

表 3-2 角色 属性 
描述 


确定 一 个 角色 是 否 是 超级 用 户 。 只 有 超级 用 户 才能 创建 新 的 超级 用 
户 。 默 认 值 为 NOSUPERUSER 


确定 角色 是 否 被 允许 创建 数据 库 。 默 认 值 为 NOCREATEDB 


确定 角色 是 否 被 允许 创建 和 管理 其 他 角色 。 默 认 值 为 
NOCREATEROLE 


确定 角色 是 否 从 其 所 在 的 组 继承 权限 。 具 有 INHERIT 属性 的 角色 可 
以 自动 使 用 所 属 组 已 经 被 授予 的 数据 库 权限 ， 无 论 角 色 是 组 的 直接 
成 员 还 是 间接 成 员 。 默 认 值 为 INHERIT 


确定 角色 是 否 可 以 登录 具有 LOGIN 属性 的 角色 可 以 将 角色 作为 用 
户 登 录 。 没 有 此 属性 的 角色 被 用 于 管理 数据 库 权限 〈 用 户 组 ) 。 默 
认 值 为 NOLOGIN 


CONNECTION LIMIT connlimit 如 果 角 色 能 够 登录 ， 此 属性 指定 角色 可 以 建立 多 少 个 并 发 连接 。 默 
认 值 为 -1， 表 示 没 有 限制 

PASSWORD ‘password’ 设置 角色 的 口令 。 如 果 不 使 用 口令 认证 ， 可 以 忽略 此 选项 。 如 果 没 
有 指定 口令 ， 口 令 将 被 设置 为 null， 此 时 该 用 户 的 口令 认证 总 是 失 
败 。 一 个 null 口令 也 可 以 显 式 地 写成 PASSWORD NULL 


属性 
SUPERUSER | NOSUPERUSER 


CREATEDB | NOCREATEDB 


CREATEROLE | NOCREATEROLE 


INHERIT | NOINHERIT 





LOGIN | NOLOGIN 
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GER) 





属性 描述 


ENCRYPTED | UNENCRYPTED 控制 口令 是 否 加 密 存 储 在 系统 目录 中 。 默 认 行 为 由 
password encryption 配置 参数 所 决定 ， 当 前 设置 是 MD5， 如 果 要 改 
为 SHA-256 加 密 ， 设 置 此 参数 为 password。 如 果 给 出 的 口令 字符 串 
已 经 是 加 密 格 式 ， 那 么 它 被 原样 存储 ， 而 不 管 指定 ENCRYPTED 还 
是 UNENCRYPTED。 这 种 设计 允许 在 dump/restore 时 重新 导入 加 密 
的 口令 


VALID UNTIL ‘timestamp’ 设置 一 个 日 期 和 时 间 ， 在 该 时 间 点 后 角色 的 口令 失效 。 如 果 忽 略 此 
选项 ， 口 令 将 永久 有 效 

赋予 角色 一 个 命名 的 资源 队列 用 于 负载 管理 。 角 色 发 出 的 任何 语句 
都 受到 该 资源 队列 的 限制 。 注 意 ， 这 个 RESOURCE QUEUE 属性 不 
会 被 继承 ， 必 须 在 每 个 用 户 级 (登录 ) 角色 设置 


在 此 时 间 区 间 内 禁止 访问 








RESOURCE QUEUE queue_name 








DENY {deny_interval | deny_point} 


可 以 在 创建 角色 时 ， 或 者 创建 角色 后 使 用 ALTER ROLE 命令 指定 这 些 属 性 : 


alter role jsmith with password 'passwd123'; 





alter role admin valid until 'infinity'; 
alter role jsmith login; 

alter role jsmith resource queue adhoc; 
alter role jsmith deny day 'sunday'; 


使 用 drop role 或 drop user 命令 删除 角色 用户 ) 。 在 删除 角色 前 ， 先 要 收回 角色 所 拥有 
的 全 部 权限 , 或 者 先 删除 与 角色 相关 联 的 所 有 对 象 ， 否则 删除 角色 时 会 提示 “cannot be dropped 
because some objects depend on it” 错 误 。 

通常 将 多 个 权限 合成 一 组 , 能 够 简化 对 权限 的 管理 。 使 用 这 种 方法 , 对 于 一 个 组 中 的 用 户 ， 
其 权限 可 以 被 整体 授予 和 回收 。 在 HAWQ 中 的 实现 方式 为 先 创建 一 个 表示 组 的 角色 ， 然 后 将 
用 户 角色 授予 组 角色 的 成 员 。 下 面 的 SQL 命令 使 用 CREATE ROLE 创建 一 个 名 为 admin 组 角 
色 ， 该 组 角色 具有 CREATEROLE 和 CREATEDB 系统 权限 。 


create role admin createrole createdb; 
- 旦 组 角色 存在 , 就 可 以 使 用 GRANT fil REVOKE 命令 添加 或 删除 组 成 员 (用 户 角 色 》: 
grant admin to john, sally; 
revoke admin from bob; 
为 简化 对 象 权 限 的 管理 , 应 当 只 为 组 级 别 的 角色 授予 适当 的 权限 。 成 员 用 户 角 色 继 承 组 角 
色 的 对 象 权限 : 
grant all on table mytable to admin; 


grant all on schema myschema to admin; 
grant all on database mydb to admin; 


47 


角色 属性 LOGIN. SUPERUSER, CREATEDB 和 CREATEROLE 不 会 当 作 普 通 的 数据 库 
对 象 权 限 被 继承 。 为 了 让 用 户 成 员 使 用 这 些 属性 ， 必 须 执 行 SET ROLE 设置 一 个 角色 具有 这 
些 属性 ,在 上 面 的 例子 中 , 我 们 已 经 为 admin 指定 了 CREATEDB 和 CREATEROLE 属性 sally 
是 admin 的 成 员 ， 当 以 sally 连接 到 数据 库 后 ， 执 行 以 下 命令 ,使 sally 可 以 拥有 父 角色 的 
CREATEDB 和 CREATEROLE 属性 。 





set role admin; 


有 关 角 色 属 性 信息 可 以 在 系统 表 pg, authid 中 找到 ,pg_roles 是 基于 系统 表 pg, authid 的 视 
图 。 系 统 表 pg_auth_members 存储 了 角色 与 其 成 员 的 关系 。 


3.23 ”管理 对 象 权限 


当 一 个 对 象 〈 表 、 视 图 、 序 列 、 数 据 库 、 函 数 、 语 言 、 模 式 或 表 空间 ) 被 创建 时 ， 它 的 权 
限 被 赋予 属 主 。 属 主 通 常 是 执行 CREATE 语句 的 角色 。 对 于 大 多 数 类 型 的 对 象 ， 其 初始 状态 
是 只 允许 属 主 或 超级 用 户 在 对 象 上 做 任何 操作 。 为 了 允许 其 他 角色 使 用 对 象 , 必须 授予 适当 的 
权限 。HAWQ 对 每 种 对 象 类 型 支持 的 权限 如 表 3-3 所 示 。 


表 3-3 ”对象 权限 





对 象 类 型 权限 


SELECT、INSERT、RULE、ALL 
SELECT、RULE、ALL 

CONNECT, CREATE, TEMPORARY | TEMP, ALL 
EXECUTE 

USAGE 

CREATE, USAGE, ALL 

SELECT, INSERT, RULE, ALL 


必须 为 每 个 对 象 单独 授权 。 例 如 ， 授 予 数据 库 上 的 ALL 权限 ， 并 不 会 授予 数据 库 中 全 部 
对 象 的 访问 权限 ， 而 只 是 授予 了 该 数据 库 自 身 的 数据 库 级 别 的 全 部 权限 (CONNECT、 
CREATE、TEMPORARY 等 ) 。 

使 用 标准 的 GRANT 和 REVOKE SQL 语句 为 角色 授予 或 回收 一 个 对 象 权限 : 


grant insert on mytable to jsmith; 











revoke all privileges on mytable from jsmith; 


可 以 使 用 DROP OWNED 和 REASSIGN OWNED 命令 为 一 个 角色 删除 或 重新 赋予 对 象 属 
主权 限 。 只 有 对 象 的 属 主 或 超级 用 户 能 够 执行 此 操作 : 


reassign owned by sally to bob; 
drop owned by visitor; 
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HAWQ 不 支持 行 级 和 列 级 的 访问 控制 ， 但 是 可 以 通过 视图 来 模拟 ， 限 制 查询 的 行 或 列 。 
此 时 角色 被 授予 对 视图 而 不 是 基 表 的 访问 权限 。 对 象 权限 存储 在 pg_class.relacl 列 中 。Relacl 
是 PostgreSQL 支持 的 数组 属性 ， 该 数组 成 员 是 抽象 的 数据 类 型 aclitem。 每 个 ACL 实际 上 是 
一 个 由 多 个 aclitem 构成 的 链表 。 


3.2.4 口令 加 密 


HAWQ 默认 使 用 MDS 为 用 户口 令 加 密 ， 通 过 适当 配置 服务 器 参数 ， 也 能 实现 口令 的 
SHA-256 加 密 存储 。 为 了 使 用 SHA-256 加 密 ， 客 户 端 认 证 方法 必须 设置 为 PASSWORD 而 不 
是 默认 的 MD5。 口令 虽然 以 加 密 形 式 存储 在 系统 表 中 ， 但 仍然 以 明文 在 网 络 间 传递 。 为 了 避 
免 这 种 情况 ， 应 该 建立 客户 端 与 服务 器 之 间 的 SSL 加 密 通道 。 

1. 系统 级 启用 SHA-256 加 密 

(1) 使 用 Ambari 


€o) 通过 HAWQ service Configs 一 Advanced 一 Custom hawq-site 下 拉 列 表 设 置 
password hash algorithm 配置 属性 ， 有 效 值 为 SHA-256。 
CX02 iif Service Actions Restart All 使 配置 生效 。 


(2) 使 用 命令 行 
ED) 作为 管理 员 登录 HAWQ Master 并 设置 路 径 : 
$ source /usr/local/hawq/greenplum_path.sh 
C€X302 使 用 hawq config 应 用 程序 设置 password hash algorithm 为 SHA-256: 
$ hawq config -c password hash algorithm -v 'SHA-256' 
CXX9 £4 HAWQ 配置 : 
$ hawq stop cluster -u 
CX 验证 设置 : 
$ hawq config -s password hash algorithm 
2. 会 话 级 启用 SHA-256 加 密 
为 单个 数据 库 会 话 设置 password_hash_algorithm 服务 器 参数 : 


(1) 以 超级 用 户 登录 HAWQ 实例 。 
(2) 设置 password_hash_algorithm 参数 为 SHA-256: 


set password hash algorithm = 'SHA-256'; 


G) 验证 参数 设置 : 


show password_hash_algorithm; 
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3. 验证 口令 加 密 方式 生效 
(1) 建立 一 个 具有 login 权限 的 新 角色 ， 并 设置 口令 : 
create role testdb with password 'testdb123454' login; 
(2) 修改 客户 端 认 证 方法 ， 人 允许 存 储 SHA-256 加 密 的 口令 ， 打 开 Master 的 pg. hba.conf 
文件 并 添加 下 面 一 行 : 
host all testdb 0.0.0.0/0 password 
(3) 重启 集群 : 
hawq restart cluster 
(4) 以 刚 创建 的 testdb 用 户 登 录 数 据 库 ， 在 提示 时 输入 正确 的 口令 : 
psql -d postgres -h hdp3 -U testdb 
验证 口令 被 以 SHA-256 哈 希 方式 存储 ,加 密 后 的 口令 存储 在 pg_authid.rolpassword 字 段 中 。 
作为 超级 用 户 登录 ， 执 行 下 面 的 查询 : 


gpadmin=# select rolpassword from pg authid where rolname = 'testdb'; 
rolpassword 





sha25650c2445bab257£4ea94ee12e5a6bf1400b00a2c317£c06b6f£f9b57975bd1cdel 
(1 row) 


psql 连接 HAWQ 


用 户 可 以 使 用 与 一 个 PostgreSQL 兼容 的 客户 端 程序 连接 到 HAWQ, 最 常用 的 客户 端 工具 
就 是 psql。 再 次 强调 ， 用 户 和 管理 员 总 是 通过 Master 连接 到 HAWQ, Segment 不 能 接受 客户 
端 连接 。 为 了 建立 一 个 到 Master 的 连接 ， 需 要 了 解 表 3-4 所 示 的 连接 信息 ， 并 在 psal 命令 行 
给 出 相应 参数 或 配置 相关 的 环境 变量 。 


表 3-4 psq 主要 连接 参数 











连接 参数 | 描述 环境 变量 

dbname 连接 的 数据 库 名 称 。 对 于 一 个 新 初始 化 的 系统 ， 首 次 连接 使 用 templatel | SPGDATABASE 
数据 库 

host HAWQ Master 节点 的 主机 名 。 默 认 主机 为 localhost $PGHOST 

port HAWQ Master 节点 实例 运行 的 端口 号 。 默 认 是 5432 $PGPORT 





username ”| 连接 数据 库 的 用 户 ( 角 色 ) 名称。 与 操作 系统 用 户 名 相同 的 用 户 名 不 需 | SPRUSER 
要 此 参数 。 注 意 ， 每 个 HAWQ 系统 都 有 一 个 在 初始 化 时 自动 创建 的 超 

级 用 户 账号 。 这 个 账号 与 初始 化 HAWQ 系统 的 操作 系统 用 户 同名 ， 典 

型 的 是 gpadmin 
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下 面 的 例子 显示 如 何 通 过 psql 访问 一 个 HAWQ 数据 库 , 没有 指定 的 连接 参数 依赖 于 设置 
的 环境 变量 或 使 用 默认 值 。 


psql -d mytest -h hdp3 -p 5432 -U gpadmin 


psql mytest 
psql 


当 用 户 定 义 的 数据 
psql templatel 
连接 数据 库 后 ，psql 


mytest=> 





库 还 没有 创建 时 ， 可 以 通过 连接 templatel 数据 库 访问 系统 : 


提供 一 个 由 当前 连接 的 数据 库 名 后 跟 一 构成 的 提示 符 〈 超 级 用 户 是 -#) : 














在 提示 符 下 ， 可 以 输入 SQL 命令 。 每 个 SQL 命令 必须 以 ; (分 号 ) 结束 ， 以 发 送 到 服务 


WHAT: 


select * from mytable; 
psql 常用 命令 与 mysql 命令 行 的 比较 如 表 3-5 所 示 。 
表 3-5 psql 常用 功能 与 mysql 比较 














功能 描述 psql mysql 

联机 帮助 help: 简要 帮助 help, ?, V. W: 都 是 等 价 的 简要 帮助 。 后 面 可 
Vs psql 命令 帮助 以 跟 SQL 命令 ,显示 详细 的 命令 语法 
\h: SQL 命令 帮助 

执行 SQL 分 号 或 \g 分 号 、\g 或 \G 

退出 \q WS exit 或 quit 

列 出 所 有 数据 库 \l show databases; 

改变 当前 连接 的 数据 库 | \c DBNAME use db_name; 

列 出 内 部 表 \dt show tables; 

列 出 外 部 表 \dx 无 

表 的 描述 \d TABLENAME desc tbl name; 

列 出 索引 无 show index from tbl_name; 

列 出 视图 \dv show tables; 

列 出 序列 ds 无 

列 出 系统 表 \dtS+ show tables from mysql; 











show tables from information_schema; 


show tables from performance_schema; 
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Kettle 连接 HAWQ 


Kettle 是 当前 流行 的 开源 ETL 工具 之 一 ,是 用 Java 语言 开发 的 。 它 最 初 的 作者 Matt Casters 
原 是 一 名 C 语言 程序 员 ， 在 着 手 开发 Kettle 时 还 是 一 名 Java 小 白 ， 但 是 他 仅 用 了 一 年 时 间 就 
开发 出 了 Kettle 的 第 一 个 版 本 。 虽然 有 很 多 不 足 , 但 这 个 版 本 毕 况 是 可 用 的 。 使 用 自己 并 不 熟 
悉 的 语言 ， 仅 赁 一 己 之 力 在 很 短 的 时 间 里 就 开发 出 了 复杂 的 ETL 系统 工具 ， 作 者 的 开发 能 力 
和 实践 精神 令 人 十 分 佩服 。 后 来 Pentaho 公司 获得 了 Kettle 源 代 码 的 版 权 ，Kettle 也 随 之 更 名 
为 Pentaho Data Integration， 简 称 PDI。Kettle 的 设计 原则 之 一 ， 就 是 尽量 减少 编程 ， 几 乎 所 有 
工作 都 可 以 通过 简单 拖 搜 来 完成 。 它 通过 工作 流 和 数据 转换 两 种 不 同 的 模式 进行 数据 操作 , 分 
别 被 称 为 作业 和 转换 。 

Kettle 里 的 转换 和 作业 使 用 “数据 库 连 接 ” 主 对 象 来 连接 关系 型 数据 库 。Kettle 数据 库 连 
接 实际 是 数据 库 连接 的 描述 ,也 就 是 建立 实际 连接 需要 的 参数 ,实际 连接 只 是 在 运行 时 才 建 立 ， 
定义 一 个 Kettle 数据 库 连 接 并 不 真正 打开 一 个 到 数据 库 的 连接 。 各 个 数据 库 的 行为 都 是 完全 不 
同 的 ，Kettle 7.0 可 以 连接 的 数据 库 多 达 51 种 ， 几 乎 覆盖 了 所 有 常用 数据 库 ， 而 且 支 持 的 数据 
库 种 类 还 在 增多 。 下 面 就 以 Kettle 7.0 为 例 ， 说 明 Kettle 连接 HAWQ 的 配置 步骤 。 


CIE pg_hba.conf 文件 中 添加 客户 端 连接 .pg_hba.conf 文件 作用 在 3.1 节 已 经 详细 说 明 。 
这 里 连接 HAWQ 的 用 户 名 为 kettle，192.168.8.187 是 Kettle 所 在 主机 的 IP 地 址 。 


echo "host all kettle 192.168.8.187/32 md5" >> /data/hawq/master/pg_hba.conf 


(2) ER pg hba.conf 文件 使 修改 生效 : 


hawq stop cluster -u -M fast 
(3) 在 psql 中 建立 用 户 并 授权 。 这 里 授予 kettle 用 户 对 public 模式 下 所 有 表 的 查询 权限 。 

create role kettle with login; 

alter role kettle with password '123456'; 

\t on 

\o /tmp/grant.sql 

select 'grant select on '||tablename || ' to kettle;' from pg tables where 
Schemaname-'public'; 

No 

Mi /tmp/grant.sql 


(4) 在 Kettle 中 建立 DB 连接 。 


D 新 建 转换 。 
© 选中 “ 主 对 象 树 ”一 转换 一 转换 1 一 DB 连接 ， 右 击 “ 新 建 ”。 
@ 如 图 3-1 所 示 配 置 数据 库 连接 。 
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3-1 新 建 数据 库 连 接 


在 数据 库 连 接 窗口 中 主要 设置 下 面 三 个 选项 。 


连接 名 称 : 设 定 一 个 作业 或 转换 范围 内 唯一 的 数据 库 连 接 名 称 。 

连接 类 型 : 从 数据 库 列 表 中 选择 要 连接 的 数据 库 类 型 。 根 据 选中 数据 库 的 类 型 不 同 ， 
要 设置 的 访问 方式 和 连接 参数 设置 不 尽 相 同 ， 某 些 Kettle 步骤 或 作业 生成 SQL 语句 
时 使 用 的 方言 也 会 有 所 不 同 。 

连接 方式 : 在 列表 里 选择 可 用 的 连接 方式 ， 一 般 都 使 用 JDBC 连接 。 


如 图 3-1 所 示 ， 这 里 的 三 个 选项 分 别 设置 为 hawq、Greenplum、JDBC。 右 侧面 板 的 连接 
参数 如 下 : 


主机 名 称 : 数据 库 服务 器 的 主机 名 或 IP 地 址 ， 这 里 是 HAWQ Master 节点 地 址 。 
数据 库 名 称 : 要 访问 的 数据 库 名 。 

端口 号 : 选中 数据 库 服务 器 的 端口 号 ，HAWQ 默认 使 用 5432 端口 。 

用 户 名 和 密码 : 数据 库 服 务 器 的 用 户 名 和 密码 ， 这 里 就 是 上 一 步 建立 的 用 户 。 


(5) 单 击 “ 测 试 ”按钮 ， 弹 出 图 3-2 所 示 的 测试 成 功 页 面 。 


o TERESI [haw 
主机 名 : 172.16.1.126 

















32 测试 数据 库 连 接 
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(6) 新 建 一 个 “ 表 输 入 ”步骤 ， 在 编辑 窗口 中 ，“ 数 据 库 连接 ”选择 “hawq”， 然 后 单 
击 “ 获 取 SQL 查询 语句 ”按钮 ， 在 图 3-3 所 示 的 弹出 窗口 中 选择 一 个 表 并 确定 ， 结 果 如 图 3-4 
所 示 。 

















E _hawq log master ext 
国 migrationhistory 

E array tbl 

E imf data 

E Imf model 











E mat a sparse 
E matb 
E mat b sparse. 























3-3 选择 表 














SELECT 
row_id 
, Col id 
. va 
|FROM mat limit 10 
| 
< 


#72 列 2 





允许 简易 转换 
BS SQL 语句 里 的 变量 
从 步骤 插入 数据 _ 


执行 每 一 行 ? [ 




















记录 数量 限制 
REO) 






































图 3-4 表 输 入 步骤 
CD 单 击 “ 预 览 ” 按 钮 ， 结 果 如 图 3-5 所 示 。 
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DE BBA SEE (10 rows) 
rowid ^ colid 
1 


f 
1 
2 
3 
4 
5 
6 
7 
8 


9 
10 


























3-5 预览 表 数 据 





可 以 看 到 ， 表 输入 步骤 建立 了 到 HAWQ 的 连接 ，SQL 查询 成 功 执行 ， 正 确 返回 了 数据 。 
同样 ， 利 用 “ 表 输 出 ”步骤 ， 可 以 将 其 他 源 数据 写 入 HAWQ 表 中 ， 这 里 就 不 做 演示 了 。 





连接 常见 问题 


很 多 问题 会 引起 客户 端 连 接 HAWQ 失败 。 表 3-6 提供 了 造成 连接 问题 的 常见 原因 及 其 排 


查 方法 。 


R36 常见 连接 问题 排查 





问题 


No pg_hba.conf entry 
for host or user 


HAWOQ is not running 


排查 

为 了 让 HAWQ 接受 远程 客户 端 连接 ， 必 须 配置 HAWQ Master 节点 实例 上 的 
pg_hba.conf 文件 ， 在 该 文件 中 增加 适当 的 条 目 ， 允 许 客户 端 主机 和 数据 库 用 户 连接 
到 HAWQ 

如 果 HAWQ Master 节点 实例 宕 机 ,用户 将 不 能 连接 。 可 以 在 HAWQ Master 节点 上 
运行 hawq state 应 用 程序 ， 验 证 HAWQ 系统 正在 运行 





Network problem 


Interconnect timeouts 





当 用 户 从 远程 客户 端 连接 到 HAWQ Master 节点 时 ， 网 络 问题 可 能 阻止 连接 (例如 ， 
DNS 主机 名 解析 问题 、 主 机 系统 断 网 等 ) 。 为 了 确认 不 是 网 络 问题 ， 从 远程 客户 端 
所 在 主机 连接 HAWQ Master 节点 所 在 主机 。 例 如 : ping hostname. 

如 果 系 统 不 能 解析 HAWQ 主机 IP 地 址 所 涉及 的 主机 名 ， 查 询 和 连接 将 失败 。 有 些 
操作 使 用 localhost 进行 连接 ， 而 另 一 些 操作 使 用 实际 的 主机 名 ， 所 以 两 种 情况 都 必 
须 能 正确 解析 。 如 果 碰 到 连接 错误 ， 首 先 核实 能 够 从 HAWQ Master 节点 所 在 主机 
连接 到 集群 主机 在 Master 节点 和 所 有 Segment 的 /etc/hosts 文件 中 确认 有 HAWQ 








集群 中 所 有 主机 的 正确 主机 名 和 IP 地址 。127.0.0.1 必须 被 解析 成 localhost 
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BR) 





问题 排查 





Too many clients 默认 HAWQ Master 节点 和 Segment 允许 的 最 大 并 发 连接 数 分 别 是 200 和 1280。 超 

already 出 此 限制 的 连接 将 被 拒绝 。 这 个 限制 由 Master 节点 实例 的 max_connections 参数 和 
Segment 实例 的 seg max connections 参数 所 控制 。 如 果 修 改 了 Master 节点 的 设置 ， 
也 必须 在 Segment 节点 上 做 适当 的 修改 


Query failure HAWQ 集群 网 络 中 必须 配置 DNS 反 向 解析 。 如 果 DNS 反 向 解析 没有 配置 ， 失 败 的 
查询 将 在 HAWQ Master 节点 的 日 志文 件 中 产生 “Failed to reverse DNS lookup forip 
<ip-address>” 警 告 消息 











? .( | 小结 


HAWQ 使 用 Master 节点 上 的 pg_hba.conf 文件 控制 客户 端 访 问 与 认证 ， 这 点 继承 自 
PostgreSQL 。 该 文件 通常 位 于 Master 数据 目录 中 ， 默 认 的 文件 位 置 是 
/data/hawq/master/pg_hba.conf。 与 其 他 关系 数据 库 不 同 ,， HAWQ 中 的 角色 可 以 是 用 户 或 组 。 组 
角色 主要 用 于 简化 权限 管理 , 组 中 的 成 员 默 认 会 继承 赋予 组 的 权限 。 数 据 库 对 象 的 属 主 拥有 对 
象 上 的 所 有 权限 ， 属 主 或 超级 用 户 〈gpadmin) 可 以 将 对 象 权 限 授 予 其 他 用 户 。 用 户口 令 以 加 
密 形式 存储 于 pg_authid.rolpassword 列 , 默认 使 用 MDS, 也 可 以 配置 成 SHA-256 加 密 。HAWQ 
最 常用 的 命令 行 工具 是 psql。Kettle 使 用 Greenplum 数据 库 类 型 连接 HAWQ, 通过 表 输 入 和 表 
输出 步骤 读 写 HAWQ X. 
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mys 


第 4 章 
< 数据 库 对 象 管理 


HAWQ 本 质 上 是 一 个 数据 库 系 统 。 和 其 他 关系 数据 库 类 似 , HAWQ 中 有 数据 库 、 表 空间 、 
表 、 视 图 、 自 定义 数据 类 型 、 自 定义 函数 、 序 列 等 对 象 。 本 章 将 简 述 这 些 对 象 的 创建 与 管理 。 
对 HAWQ 中 表 的 存储 方式 与 分 布 策略 等 特性 的 选择 ， 会 对 应 用 性 能 产生 极 大 影响 ， 同 时 这 也 
是 一 个 复杂 的 话题 ， 将 在 第 6 章 单独 讨论 。 


创建 和 管理 数据 库 


HAWQ 中 数据 库 的 概念 与 MySQL 类 似 ,一 个 HAWQ 实例 中 通常 会 建立 多 个 数据 库 ， 这 
和 Oracle 中 数据 库 的 概念 不 同 。 在 Oracle 体系 结构 中 ， 数 据 库 是 一 个 “最 大 ”的 概念 ， 大 多 
数 情况 下 一 个 Oracle 数据 库 对 应 一 个 实例 ，RAC 是 一 个 数据 库 对 应 多 个 实例 。 尽 管 可 以 在 一 


个 HAWQ 系统 中 创建 很 多 数据 库 ， 但 是 客户 端 程序 在 某 一 时 刻 只 能 连接 到 一 个 数据 库 ， 这 也 
决定 了 HAWQ 不 能 执行 跨 库 的 查询 。 
1. 模板 数据 库 


HAWQ 初始 化 后 ， 就 有 了 template0、templatel 和 postgres 等 模板 数据 库 。 模 板 数据 库 是 
«Bb on 
不 能 删除 的 : 


gpadmin=# drop database template0; 
ERROR: cannot drop a template database 
gpadmin=# drop database templatel; 
ERROR: cannot drop a template database 
gpadmin=# drop database postgres; 
ERROR: cannot drop a template database 














始 时 template 和 template! 两 个 库 的 内 容 是 一 样 的 。 两 者 最 主要 的 区 别 是 , 默认 可 以 连 
接 templatel 并 在 其 中 创建 对 象 ， 但 不 能 连接 template0。 


gpadmin=# Nc templated 





FATAL: database "template0" is not currently accepting connections 
Previous connection kept 

gpadmin=# \c templatel 

You are now connected to database "templatel" as user "gpadmin". 


每 个 新 创建 的 数据 库 都 基于 一 个 模板 , 建 库 时 如 果 不 指定 TEMPLATE 属性 , 默认 用 的 是 


template] 模板 库 。 除 非 希望 某 些 对 象 在 每 一 个 新 创建 的 数据 库 中 都 存在 , 否则 不 要 在 template] 
中 创建 任何 对 象 。templatel 是 默认 模板 ， 并 且 其 中 的 对 象 和 数据 会 被 克隆 到 每 个 以 它 为 模板 
的 新 建 数 据 库 中 。 


templatel=# create table tl (a int); 

CREATE TABLE 

templatel=# insert into tl values (1); 

INSERT 0 1 

templatel-£ create database dbl; 

CREATE DATABASE 

templatel=# \c dbi 

You are now connected to database "db1" as user "gpadmin". 


db1=# \dt 

List of relations 
Schema | Name | Type | Owner | Storage 
-------- 4------4-------4---------4------------- 
public | tl | table | gpadmin | append only 
(1 row) 


dbl=# select * from t1; 


(1 row) 


HAWQ 还 有 一 个 模板 库 postgres。 不 要 修改 templated 或 postgres, HAWQ 内 部 需要 使 用 


它们 。 以 templated 为 模板 可 以 创建 一 个 完全 干净 的 数据 库 ， 其 中 只 包含 HAWQ 在 初始 化 时 
预定 义 的 标准 对 象 。 如 果 修改 了 template1， 可 能 就 需要 这 么 做 。 指 定 以 templated 为 模板 创建 
数据 库 : 
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templatel=# create database db2 with template template0; 
CREATE DATABASE 


通过 适当 配置 ， 其 实 也 可 以 连接 templated: 


templatel=# set allow system table mods-'DML'; 
SET 
templatel=# update pg database set datallowconn-'t' where datname='template0'; 


UPDATE 1 


templatel=# \c templated 

You are now connected to database "template0" as user "gpadmin". 
template0=# update pg database set datallowconn='f' where datname='template0' 
ERROR: permission denied: "pg database" is a system catalog 

template0=# set allow system table mods-'DML'; 

SET 

template0=# update pg database set datallowconn-'f' where datname='template0' 
UPDATE 1 

template0=# \q 

[gpadmin@hdp3 ~]$ psql -d templateO 

psql: FATAL: database "template0" is not currently accepting connections 


2. 创建 数据 库 


+ 


; 


创建 数据 库 的 用 户 必 须 拥 有 适当 的 权限 ， 比 如 超级 用 户 , 或 者 被 设置 了 CREATEDB 角色 


属性 。 除了 像 前 面 例子 中 使 用 CREATE DATABASE 命令 创建 数据 库 , 还 可 以 使 用 客户 端 程序 


T 


createdb 创建 一 个 数据 库 。 例 如 ， 运 行 下 面 的 命令 将 连接 HAWQ 主机 并 创建 名 为 db3 的 数据 


库 ， 主 机 名 和 端口 号 必须 与 HAWQ 的 Master 节点 相 匹配 。 


[gpadmin@hdp4 ~]$ createdb -h hdp3 -p 5432 db3 
[gpadmin@hdp4 ~]$ psql -h hdp3 

psql (8.2.15) 

Type "help" for help. 


gpadmin=# Ml 
List of databases 


Name | Owner | Encoding | Access privileges 
----------- 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
db3 | gpadmin | UTF8 | 
(7 rows) 


某 些 对 象 ， 如 角色 《〈 用 户 ) ， 是 被 HAWQ 中 的 所 有 数据 库 所 共享 的 。 而 另外 一 些 对 象 ， 


如 表 ， 则 只 有 它 所 在 的 数据 库 能 感知 它 的 存在 。 

3. 查看 数据 库 列表 

psql 客户 端 程序 的 \ 元 命令 显示 数据 库 列 表 。 如 果 是 数据 库 超 级 用 户 ， 还 可 以 
pg_database 系统 目录 表 中 查询 数据 库 列表 。 

gpadmin=# Ml 

List of databases 
Name | Owner | Encoding | Access privileges 
----------- 十 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
db1 | gpadmin | UTF8 | 


从 
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db2 | gpadmin | UTF8 | 
db3 | gpadmin | UTF8 | 
gpadmin | gpadmin | UTF8 | 
postgres | gpadmin | UTF8 | 
templateO0 | gpadmin | UTF8 | 
templatel | gpadmin | UTF8 | 
(7 rows) 


gpadmin=# select datname from pg database; 
datname 


hcatalog 
templatel 
postgres 
gpadmin 
templated 


(8 rows) 


可 以 看 到 ， 从 pg database 查询 出 的 结果 比 V. 命令 多 返回 一 个 库 名 为 hcatalog。 此 库 仅 
HAWQ 系统 使 用 ， 并 且 不 允许 连接 。 
gpadmin=# \c hcatalog 


FATAL: "hcatalog" database is only for system use 


Previous connection kept 
4. 修改 数据 库 


ALTER DATABASE 命令 可 以 用 于 修改 数据 库 的 默认 配置 ,如 下 面 的 命令 修改 search_path 
服务 器 配置 参数 ， 改 变数 据 库 dbl 默认 的 模式 查找 路 径 。 
gpadmin=# alter database dbl set search path to myschema, public, pg catalog; 


NOTICE: schema "myschema" does not exist 
ALTER DATABASE 


HAWQ 不 支持 修改 数据 库 名 。 


gpadmin=# alter database dbl rename to dbll; 
ERROR: Cannot support rename database statement yet 


5. 删除 数据 库 

DROP DATABASE 命令 删除 一 个 数据 库 ， 除 了 删除 数据 库 在 系统 目录 中 的 条 目 外 ， 同 时 
会 删除 磁盘 上 的 数据 。 只 有 数据 库 属 主 或 超级 用 户 才能 删除 数据 库 。 并 且 , 不 能 删除 一 个 还 有 
连接 的 数据 库 ， 包 括 不 能 删除 自己 当前 会 话 连接 的 数据 库 。 在 删除 一 个 数据 库 前 ， 可 先 连接 到 
template! 或 其 他 数据 库 。 
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gpadmin=# \c templatel 
You are now connected to database "templatel" as user "gpadmin". 


templatel=# drop database dbl; 
DROP DATABASE 


也 可 以 使 用 客户 端 程序 dropdb 删除 一 个 数据 库 。 
[gpadminehdp4 ~]$ dropdb -h hdp3 -p 5432 db2 
-个 数据 库 有 连接 时 是 不 允许 删除 的 ， 必 须 先 终止 所 有 连接 ， 在 没有 连接 之 后 再 删除 。 


gpadmin=# drop database db3; 

ERROR: database "db3" is being accessed by other users 

gpadmin=# select procpid,current query from pg stat activity where 
datname-'db3'; 

procpid | current query 

TEESE RREA eae Sea 

790583 | <IDLE> 
(1 row) 


gpadmin=# select pg_terminate_backend (790583) ; 
pg_terminate_backend 


gpadmin=# drop database db3; 
DROP DATABASE 


创建 和 管理 表 空 间 


很 多 数据 库 系统 , 如 Oracle 和 MySQL 等 , 都 有 表 空 间 的 概念 。 HAWQ 的 表 存 储 在 HDFS 
上 ， 其 表 空 间 管 理 有 自己 的 特点 。HAWQ 在 表 空 间 之 上 有 一 个 文件 空间 的 概念 ， 系 统 中 所 有 
组 件 的 文件 系统 位 置 的 集合 构成 一 个 文件 空间 。 文件 空间 可 以 被 一 个 或 多 个 表 空 间 所 使 用 。 
个 文件 空间 物理 上 实际 就 是 一 个 HDFS 的 目录 及 其 子 目 录 。 在 表 空间 定义 中 需要 指定 所 属 的 
文件 空间 。 一 个 文件 空间 下 的 所 有 表 空 间 文件 都 存储 在 该 文件 空间 所 对 应 的 HDFS 目录 下 。 

表 空间 允许 为 经 常 使 用 和 不 经 常 使 用 的 数据 库 对 象 赋予 不 同 的 存储 ,或 控制 特定 数据 库 对 
象 的 VO 性 能 。 例 如 ， 将 经 常 使 用 的 表 放 在 高 性 能 文件 系统 (如 SSD) E, 而 将 其 他 表 放 在 普 
通 标准 硬盘 上 。 通 过 这 种 方式 ，DBA 可 以 在 HAWQ 集群 中 使 用 多 个 HDFS 目录 ， 灵 活 规划 
数据 库 对 象 的 物理 存储 。 
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1. 创建 文件 空间 
文件 空间 是 一 个 符号 存储 标识 符 , 映射 为 一 组 HAWQ 主机 文件 系统 的 位 置 , 指示 HAWQ 


系统 的 存储 空间 。 为 了 创建 一 个 文件 空间 ， 需 要 在 HAWQ 集群 上 准备 HDFS 文件 系统 目录 ， 
然后 使 用 hawq filespace 应 用 程序 定义 文件 空间 。 必 须 以 数据 库 超级 用 户 创建 文件 空间 。 需 要 
注意 的 是 ，HAWQ 并 不 直接 感知 底层 的 文件 系统 边界 ， 它 将 文件 存储 在 所 指定 的 目录 中 ， 但 
不 能 人 为 控制 单个 文件 的 磁盘 位 置 。 下 面 创 建 一 个 文件 空间 。 


(1) 用 hdfs 用 户 为 文件 空间 准备 HDFS 目录 


[root@hdp4 ~]# su - hdfs 
[hdfs@hdp4 ~]$ hdfs dfs -mkdir /hawq datal 
[hdfs@hdp4 ~]$ hdfs dfs -chown -R gpadmin:gpadmin /hawq datal 


(2) 用 gpadmin 用 户 登录 HAWQ Master 
$ su - gpadmin 
(3) 创建 文件 空间 配置 文件 
在 提示 符 下 ， 输 入 文件 空间 的 名 字 、 文 件 空间 的 HDFS 位 置 ， 副 本 集 个 数 采用 默认 的 3。 


[gpadmin@hdp3 ~]$ hawq filespace -o hawqfilespace_config 

Enter a name for this filespace 

> testfs 

Enter replica num for filespace. If 0, default replica num is used (default=3) 
> 


Please specify the DFS location for the filespace (for example: 


localhost: 9000/fs) 
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location» hdp1:8020/hawq datal 

20170306:11:24:52:352152 hawgfilespace:hdp3:gpadmin- [INFO] :- [created] 

20170306:11:24:52:352152 hawgfilespace:hdp3:gpadmin- [INFO] : - 

To add this filespace to the database please run the command: 
hawgfilespace --config /home/gpadmin/hawqfilespace config 


[gpadmin@hdp3 ~]$ more /home/gpadmin/hawqfilespace config 
filespace:testfs 

fsreplica:3 

dfs url:: hdp1:8020/hawq datal 

[gpadmin@hdp3 -]$ 


(4) 用 生成 的 配置 文件 创建 文件 空间 


[gpadmin@hdp3 ~]$ hawq filespace --config /home/gpadmin/hawqfilespace config 
Reading Configuration file: '/home/gpadmin/hawqfilespace config" 














CREATE FILESPACE testfs ON hdfs 

("hdp1:8020/hawq_datal/testfs') WITH (NUMREPLICA = 3); 

20170306:11:25:50:352658 hawqfilespace:hdp3:gpadmin-[INFO]:-Connecting to 
database 

20170306:11:25:50:352658 hawqfilespace:hdp3:gpadmin- [INFO] :-Filespace 
"testfs" successfully created 


此 时 HDFS 上 会 看 到 建立 了 /hawq_datal/testfs 目录 。 


[hdfs@hdp2 ~]$ hdfs dfs -ls /hawq datal 
Found 1 items 
GrWX====== - gpadmin gpadmin 0 2017-03-07 14:32 /hawq_datal/testfs 


2. 创建 表 空 间 
创建 完 文件 空间 ， 使 用 CREATE TABLESPACE 命令 建立 一 个 使 用 该 文件 空间 的 表 空 间 。 


gpadmin=# create tablespace testts filespace testfs; 
CREATE TABLESPACE 


目前 HAWQ 只 允许 数据 库 超级 用 户 定义 表 空 间 ， 并 且 不 支持 向 其 他 用 户 
GRANT/REVOKE 表 空 间 上 的 CREATION 权限 。 


gpadmin=# create user wxy with superuser login password 'mypassword'; 
CREATE ROLE 

gpadmin=# grant create on tablespace testts to wxy; 

ERROR: Cannot support GRANT/REVOKE on TABLESPACE statement 


相关 信息 参见 https://issues.apache.org/jira/browse/HAWQ-24. 
3. 使 用 表 空 间 存储 数据 库 对 象 


拥有 表 空 间 上 CREATE 权限 的 用 户 能 够 在 此 表 空 间 中 创建 数据 库 对 象 , 如 数据 库 、 表 等 。 
没有 指定 表 空间 的 CREATE TABLE 语句 使 用 由 default tablespace 参数 指定 的 默认 表 空 间 。 

与 一 个 数据 库 关 联 的 表 空 间 存 储 数据 库 目 录 、 数 据 库 服务 器 进程 创建 的 临时 文件 、 数 据 库 
中 在 创建 时 没有 指定 TABLESPACE 的 表 。 如 果 创建 数据 库 时 不 指定 表 空 间 ， 数 据 库 使 用 其 模 
板 数据 库 相 同 的 表 空 间 。 如 果 有 适当 的 权限 ， 可 以 在 任意 数据 库 中 使 用 一 个 表 空 间 。 


[gpadmin@hdp3 ~]$ psql -d templatel -U wxy -h hdp3 
templatel=# create database dbl tablespace testts; 
CREATE DATABASE 

templatel=# Nc dbl 

You are now connected to database "dbl" as user "wxy". 
dbl=# create table tl (a int); 

CREATE TABLE 

dbl=# create table t2 (a int) tablespace testts; 
CREATE TABLE 

dbi-£ set default tablespace = testts; 
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SET 

dbl-f create table t3 (a int); 

CREATE TABLE 

dbl=# set default tablespace = dfs default; 

SET 

dbl-£ create table t4 (a int); 

CREATE TABLE 

dbl-£ select relname,reltablespace from pg catalog.pg class where relname in 
ELT TEZ SAEST MEAN]? 

relname | reltablespace 


Tae a a aaa 
El | 0 

七 2 | 0 

t3 | 0 

t4 | 16385 
(4 rows) 


pg_class.reltablespace 为 0， 说 明 表 保存 在 从 数据 库 继 承 的 默认 表 空 间 testts 里 。 特 别 要 指 
出 的 是 ， 所 有 非 共 享 的 系统 表 (pg class.relisshared 为 false) 也 都 存放 在 这 里 。 


4. 查看 表 空间 和 文件 空间 

每 个 HAWQ 系统 都 有 以 下 默认 表 空 间 : 

© pg global: 共享 系统 目录 表 空 间 。 

€ pg default: 默认 表 空间 ，templatel 和 templated 数据 库 使 用 。 


这 些 表 空间 使 用 系统 默认 的 文件 空间 pg_system, 指示 系统 初始 化 时 创建 的 数据 目录 位 置 。 
pg_filespace 和 pg_filespace_entry 目录 表 存 储 文件 空间 信息 。 可 以 将 这 些 表 与 pg_tablespace 关 
联 查 看 完整 的 表 空 间 的 定义 。 


dbl=# select spcname as tblspc, fsname as filespc, 


db1-# fsedbid as seg_dbid, fselocation as datadir 

db1-# from pg tablespace pgts, pg filespace pgfs, 

db1-# pg_filespace_entry pgfse 

db1-# where pgts.spcfsoid=pgfse.fsefsoid 

db1-# and pgfse.fsefsoid=pgfs.oid 

db1-# order by tblspc, seg_dbid; 

tblspc | filespc | seg dbid | datadir 

------------- +------------+----------+------------------------------------ 

dfs_default | dfs_system | 0 | hdfs://hdp1:8020/hawq data 

testts | testfs | 0 a] 
hdfs://{replica=3}hdp1:8020/hawq_datal/testfs 

(2 rows) 
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5. 删除 表 空 间 和 文件 空间 


只 有 表 空间 的 属 主 或 超级 用 户 可 以 删除 表 空 间 。 直 到 表 空 间 所 有 的 数据 库 对 象 都 被 删除 
后 ， 才 能 删除 表 空 间 。 


postgres=# drop tablespace testts; 
ERROR: tablespace "testts" is not empty: existing database. 
postgres=# drop filespace testfs; 
ERROR: filespace "testfs" is not empty 
postgres=# drop database dbl; 

DROP DATABASE 

postgres=# drop filespace testfs; 
ERROR: filespace "testfs" is not empty 
postgres=# drop tablespace testts; 

DROP TABLESPACE 

postgres=# drop filespace testfs; 

DROP FILESPACE 

postgres=# 


此 时 HDFS 上 的 /hawq_datal/testfs 目录 已 经 删除 。 


[hdfs@hdp2 ~]$ hdfs dfs -1s /hawq datal/testfs 
ls: ^/hawq datal/testfs': No such file or directory 
[hdfsGhdp2 ~]$ 


创建 和 管理 模式 


模式 (schema) 是 一 个 有 趣 的 概念 ， 不 同 数据 库 系 统 中 的 模式 代表 完全 不 同 的 内 容 。 如 
Oracle 中 ， 默 认 在 创建 用 户 的 时 候 ， 就 建立 了 一 个 和 用 户 同名 的 模式 ， 并 且 互 相 绑 定 ， 因 此 很 
多 情况 下 Oracle 的 用 户 和 模式 可 以 通用 .MySQL 中 的 schema 是 database 的 同义词 .而 HAWQ 
中 的 模式 是 从 PostgreSQL 继承 来 的 ， 其 概念 与 SQL Server 的 模式 更 为 类 似 ， 是 数据 库 中 的 逻 

HAWQ 的 模式 是 数据 库 中 对 象 和 数据 的 逻辑 组 织 。 模 式 允 许 在 一 个 数据 库 中 存在 多 个 同 
名 的 对 象 。 如 果 对 象 属于 不 同 的 模式， 同名 对 象 之 间 不 会 冲突 。 使 用 schema 有 如 下 好 处 : 

e 方便 管理 多 个 用 户 共享 一 个 数据 库 ， 但 是 又 可 以 互相 独立 。 

e 方便 管理 众多 对 象 ， 更 有 逻辑 性 。 

e 方便 兼容 某 些 第 三 方 应 用 程序 ， 如 果 创 建 对 象 时 是 带 schema 的 。 


比如 要 设计 一 个 复杂 系统 ， 由 众多 模块 构成 ， 有 时 候 模块 间 又 需要 具有 独立 性 。 各 模块 存 
放 单 独 的 数据 库 显然 是 不 合适 的 。 此 时 就 可 使 用 schema 来 划分 各 模块 间 的 对 象 ， 再 对 用 户 进 
行 适当 的 权限 控制 ， 这 样 逻辑 也 非常 清晰 。 
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1. 默认 的 “Public” 模 式 

每 个 数据 库 都 有 一 个 默认 的 名 为 public 的 模式 。 如 果 不 建立 任何 模式 ， 对 象 则 被 创建 在 
public 模式 中 。 所 有 数据 库 角色 (用户 ) 都 具有 public 模式 中 的 CREATE 和 USAGE 权限 。 创 
建 了 一 个 模式 时 ， 需 要 给 用 户 授予 访问 该 模式 的 权限 。 

2. 创建 模式 

使 用 CREATE SCHEMA 命令 创建 一 个 新 模式 。 为 了 在 模式 中 建立 和 访问 对 象 , 完整 的 对 
象 名 称 由 模式 名 + 对 和 象 名 组 成 , 对 象 名 和 模式 名 用 点 号 分 隔 。 可 以 创建 一 个 属于 其 他 人 的 模式 ， 
语法 是 : 

CREATE SCHEMA <schemaname> AUTHORIZATION «username»;. 

3. 模式 查找 路 径 

可 以 设置 search. path 参数 指定 数据 库 对 象 有 效 模式 的 查找 顺序 。 查 找 路 径 列 表 中 的 第 一 
个 存在 的 模式 为 默认 模式 。 如 果 没 有 指定 模式 ， 对 象 在 默认 模式 中 创建 。 

(1) 设置 模式 查找 路 径 
search_path 参数 设置 模式 查找 顺序 。 


-- 设置 数据 库 级 的 模式 查找 路 径 : 

alter database dbl set search path to ul, public, pg catalog; 
-- 设置 当前 会 话 的 模式 查找 路 径 : 

set search_path to ul, public, pg_catalog; 

-- 不 能 为 用 户 指定 模式 查找 路 径 : 

alter role etl set search_path=trade; 

ERROR: Cannot support alter role set statement yet 


(2) 查看 当前 模式 
使 用 current_schema() 函 数 查 看 当前 模式 。 
select current_schema(); 
使 用 SHOW 命令 查看 当前 查找 路 径 。 
show search path; 


HAWQ 对 于 模式 的 使 用 建议 是 : 在 管理 员 创建 一 个 具体 数据 库 后 ， 应 该 为 所 有 可 以 连接 
到 该 数据 库 的 用 户 分 别 创建 一 个 与 用 户 名 相同 的 模式 ， 然 后 ， 将 search path. 设置 为 "$user"， 
即 默认 的 横 式 是 与 用 户 名 相同 的 模式 。 

4. 删除 模式 

使 用 DROP SCHEMA 命令 删除 一 个 模式 。 


drop schema myschema; 
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默认 模式 必须 为 空 后 才能 删除 。 为 了 删除 一 个 非 空 的 模式 ， 可 以 使 用 DROP SCHEMA 
<schemaname> CASCADE 命令 删除 模式 及 模式 下 的 所 有 对 象 。 


5. 系统 模式 
使 用 psql 的 \dn 元 命令 查看 当前 连接 数据 库 的 所 有 模式 。 


gpadmin=# \dn 


hawq toolkit 


| 
re 
l 
information schema | gpadmin 
1 
| 
| 
| 
1 


List of schemas 


Name 


pg aoseg gpadmin 
pg bitmapindex gpadmin 
pg. catalog gpadmin 
pg toast gpadmin 
public gpadmin 
(7 rows) 


以 下 是 每 个 数据 库 中 的 系统 模式 : 


© pgcatalog: 包含 系统 目录 表 、 内 建 数据 类 型 、 函 数 和 操作 符 等 。 它 总 是 模式 查找 路 
径 的 一 部 分 ， 即 使 在 查找 路 径 中 没有 显 式 指定 。 

€ information schema: 由 一 系列 标准 视图 构成 的 数据 库 对 象 信 息 。 可 用 \dv 
information_schema.* 元 命令 列 出 该 模式 下 的 视图 。 这些 视图 以 标准 方式 从 系统 目录 表 
获取 系统 信息 。 

€ pg toast: 存储 大 小 超过 页 尺寸 的 大 对 象 。 该 模式 被 HAWQ 系统 内 部 使 用 。 

© pg bitmapindex: 存储 位 图 索引 对 象 ， 如 值 列表 。 该 模式 被 HAWQ 系统 内 部 使 用 。 

©  hawq toolkit: 管理 模式 ， 包 含 可 以 从 SQL 命令 访问 的 外 部 表 、 视 图 和 函数 。 所 有 数 
据 库 用 户 可 以 访问 hawq toolkit 查询 系统 日 志文 件 或 系统 指标 。 

€ pg aoseg: 存储 AO ( Append-optimized ) 类 型 表 对 象 的 信息 。 该 模式 被 HAWQ 系统 
内 部 使 用 。 

6. 模式 示例 


修改 Master 的 pg_hba.conf 文件 ， 增 加 三 个 用 户 ul u2, u3 的 认证 : 


[gpadmin@hdp3 ~]$ more /data/hawq/master/pg_hba.conf 


host all ul 172.16.1.0/24 md5 
host all u2 172.16.1.0/24 md5 
host all u3 172.16.1.0/24 md5 
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使 认证 文件 生效 : 

[gpadminehdp3 ~]$ hawq stop cluster -u -M fast 
创建 数据 库 dbl: 

[gpadmin@hdp3 ~]$ createdb dbl 

使 用 gpadmin 创建 两 个 用 户 ul 、u2， 授 予 超 级 用 户 权 限 ; 


[gpadmin@hdp3 ~]$ psql -c "create role ul with superuser password 'mypassword"' 
login;create role u2 with superuser password 'mypassword' login;" 


使 用 gpadmin 在 dbl 数据 库 中 创建 两 个 与 用 户 ul u2 同名 的 schema， 并 指定 对 应 的 属 主 
(此 情况 模拟 Oracle 的 用 户 模式 ) : 


gpadmin@hdp3 -]$ psql -d db1 -c "create schema ul authorization ul; create schema 
u2 authorization u2;" 


HH ul 用 户 执行 : 


gpadmin@hdp3 ~]$ psql -d dbl -U ul -h hdp3 -c "create table tl (a int); insert 
into tl values(1);" 


用 u2 用 户 执行 : 





gpadmin@hdp3 ~]$ psql -d dbl -U u2 -h hdp3 -c "create table t1 (a int); insert 
into t1 values (2);" 


用 ul 用 户 执行 : 

[gpadmin@hdp3 ~]$ psql -d dbl -U ul -h hdp3 -c "select *,current_schema() from 
t1;" 

Password for user ul: 


a | current schema 


H u2 用 户 执行 : 


[gpadmin@hdp3 ~]$ psql -d dbl -U u2 -h hdp3 -c "select *,current schema() from 
idm 


Password for user u2: 


a | current schema 
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第 4 章 数据 库 对 象 管理 


用 gpadmin 用 户 执行 : 
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(1 row) 
建立 只 有 login 权限 的 用 户 u3: 
[gpadmin@hdp3 ~]$ psql -c "create role u3 with password 'mypassword' login;" 


NOTICE: resource queue required -- using default resource queue "pg default" 
CREATE ROLE 


H u3 用 户 执行 : 
[gpadmin@hdp3 ~]$ psql -d dbl -U u3 -h hdp3 
Password for user u3: 


psql (8.2.15) 
Type "help" for help. 


dbl-» set search path-'ul'; 
SET 

dbl-» \dt 

No relations found. 

db1-> 


可 以 看 到 ，u3 看 不 到 表 ul.tl 。 
给 u3 赋予 usage 权限 : 


[gpadmin@hdp3 ~]$ psql -d dbl -c "grant usage on schema ul to u3;" 
GRANT 


用 u3 用 户 执行 : 
[gpadmin@hdp3 ~]$ psql -d dbl -U u3 -h hdp3 
Password for user u3: 


psql (8.2.15) 
Type "help" for help. 


dbl-» set search path-'ul'; 


SET 
dbi-» \dt 

List of relations 
Schema | Name | Type | Owner | Storage 
-------- 4------4-------4-------4------------- 
ul I ER | table | ul | append only 
(1 row) 


dbl-» select * from tl; 
ERROR: permission denied for relation t1 
db1=> 


可 以 看 到 ，u3 可 以 看 到 表 ul.tl ， 但 不 能 查询 。 
给 u3 赋予 select BUB : 


[gpadmin@hdp3 ~]$ psql -d dbl -c "grant select on ul.tl to u3;" 


GRANT 


H u3 


用 户 执行 : 


[gpadmin@hdp3 ~]$ psql -d dbl -U u3 -h hdp3 -c "set search path-'ul';select 


*,current schema(),current schemas(true) from t1;" 


Password for user u3: 
a | current schema | current schemas 


hennan h H anet t —X 
TT | (pg catalog,ul) 


u3 现在 可 以 查询 ul.tl o 


H u3 


用 户 执行 : 


[gpadmin@hdp3 ~]$ psql -d dbl -U u3 -h hdp3 -c "create table t2(a int);" 


Password for user u3: 


CREATE TABLE 

删除 模式 : 

[gpadminehdp4 ~]$ psql -h hdp3 -d dbl 
psql (8.2.15) 

Type "help" for help. 

db1=# drop schema ul; 


NOTICE: append only table ul.tl depends on schema ul 
ERROR: cannot drop schema ul because other objects depend on it 


HINT: 


Use DROP ... CASCADE to drop the dependent objects too. 


db1=# drop schema ul cascade; 
NOTICE: drop cascades to append only table ul.t1 


DROP 


SCHEMA 


dbl=# drop schema u2 cascade; 
NOTICE: drop cascades to append only table u2.t1 


DROP 
上 面 


SCHEMA 
-系列 示例 验证 了 以 下 结论 : 

搜索 路 径 参 数 search. path 控制 查询 表 时 所 属 schema 的 搜索 顺序 。 

创建 的 表 存 放 在 哪个 schema 跟 search. path 有 关 。 


系统 默认 将 PUBLIC 模式 的 usage、create 权限 授予 所 有 用 户 
usage 权限 的 含义 是 ， 可 以 “看 到 ”模式 中 的 对 象 ， 但 是 没有 对 象 上 的 任何 权限 。 
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© peg catalog 存放 了 各 系统 表 、 内 置 函数 等 。 它 总 是 在 搜索 路 径 中 ， 可 以 通过 


current schemas 看 到 。 


创建 和 管理 表 


这 里 所 说 的 表 是 HAWQ 数据 库 内 部 存储 的 表 。 除 了 表 行 分 布 在 系统 中 的 各 个 Segment E, 


HAWQ 中 的 表 与 其 他 关系 数据 库 中 的 表 类 似 。 关 于 外 部 表 ， 将 在 第 8 章 “ 数 据 管理 ”中 讨论 。 


4.4.1 创建 表 


T2 


CREATE TABLE 命令 创建 表 并 定义 表 结 构 ， 当 建立 一 个 表 时 ， 可 以 定义 : 


表 列 及 其 数据 类 型 。 

表 或 列 包含 的 限定 数据 的 约束 。 

表 的 分 布 策略 ， 决 定 HAWQ 如 何在 Segment 中 分 布 数据 。 

表 在 磁盘 上 的 存储 方式 。 

表 分 区 策略 ， 指 定数 据 如 何 划分 。 

1. 选择 列 的 数据 类 型 

列 的 数据 类 型 决定 了 列 中 可 以 包含 何 种 数据 。 选 择 数据 类 型 时 应 遵循 以 下 通用 原则 : 


e 选择 可 以 容纳 数据 的 最 小 可 能 空间 ， 并 能 最 好 约束 数据 的 数据 类 型 。 例 如 ， 能 使 用 
INT 或 SMALLINT 表示 数据 时 ， 就 不 要 使 用 BIGINT， 因 为 这 会 浪费 存储 空间 。 

€ 在 HAWQ t. 字符 类 型 CHAR、VARCHAR 和 TEXT 除了 使 用 空间 不 同 ， 它 们 在 性 
能 上 并 无 太 大 差异 。 在 大 多 数 情 况 下 , 应 该 使 用 TEXT 或 VARCHAR 而 不 是 CHAR。 

@ 考虑 数据 扩展 。 数据 会 随 着 时 间 的 推移 而 不 断 扩展 。 在 已 经 装载 大 量 数据 后 ， 从 小 类 
型 变 为 大 类 型 的 操作 代价 是 很 昂贵 的 。 因 此 ， 如 果 当 前 的 数据 值 可 以 用 SMALLINT, 
但 是 考虑 到 数据 扩展 性 ， 那 么 出 于 长 期 需要 ，INT 可 能 是 更 好 的 选择 。 

e ”为 表 连 接 的 列 使 用 相同 的 数据 类 型 。 如 果 数 据 类 型 不 同 ,为 了 正确 比较 数据 值 ， 数 据 
库 必 须 进 行 隐 式 数据 类 型 转换 ， 这 将 增加 不 必要 的 系统 消耗 。 

2. 设置 约束 

可 以 定义 约束 限制 表 中 的 数据 .HAWQ 支持 与 PostgreSQL 相同 的 约束 , 但 是 有 一 些 限制 : 

@ CHECK 约束 只 能 引用 它 定 义 所 属 的 表 。 

e ”外 键 约束 允许 ， 但 不 起 作用 。 

e 分 区 表 上 的 约束 作用 于 整个 表 ， 不 能 在 一 个 表 的 单独 部 分 上 定义 约束 。 


(1) Check 约束 
Check 约束 允许 指定 特定 列 中 存储 的 数据 值 必须 满足 一 个 布尔 表达 式 。 例 如 , 产品 价格 必 








db1=# create table products 
( product no integer, 

name text, 

price numeric check (price » 0) ); 
db1=# insert into products values (1,'a',10); 
INSERT 0 1 
dbl=# insert into products values (1,'a',10.5); 
INSERT 0 1 
db1=# insert into products values (1,'a',10.5111); 
INSERT 0 1 
db1=# insert into products values (1,'a',-10.5111); 
ERROR: One or more assertions failed (seg0 hdp3:40000 pid=731975) 
DETAIL: Check constraint products price check for table products was violated 
dbl=# insert into products values (1,'a',0); 
ERROR: One or more assertions failed (seg0 hdp3:40000 pid=731988) 
DETAIL: Check constraint products price check for table products was violated 
db1=# select * from products; 


product no | name | price 
二 eona oi 
I pa 1 10 
la | 10.5 
la 151075 T1131: 
(3 rows) 


(2) 非 空 约束 
非 空 约束 指定 一 个 列 不 能 有 空 值 。 


dbl=# create table products 
( product no integer not null, 

name text not null, 

price numeric ); 
dbl=# insert into products values(1,'a',10.51); 
INSERT 0 1 
dbl=# insert into products (price) values(10.51); 
ERROR: null value in column "product no" violates not-null constraint 

(CTranslatorUtils.cpp:2726) 

db1=# 
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G) 主键 与 外 键 
HAWQ 不 支持 主键 与 外 键 约束 。 因 为 主键 是 用 唯一 索引 实现 , 而 HAWQ 不 支持 索引 ， 因 
此 不 支持 主键 。 根 据 外 键 的 定义 ， 既 然 没 有 主键 ， 也 就 谈 不 上 外 键 了 。 


db1=# create table t2(a int); 

CREATE TABLE 

db1=# create table t3(a int primary key); 

ERROR: Cannot support create index statement yet 


44.2 MRR 


DROP TABLE 命令 从 数据 库 中 删除 表 。DROP TABLE 总 是 删除 表 上 的 约束 。 指 定 
CASCADE 将 删除 引用 表 的 视图 。 如 果 要 清空 表 中 的 数据 ， 但 保留 表 定义 ， 使 用 TRUNCATE 


<tablename>. 


db1=# create table tl (a int); 

CREATE TABLE 

db1=# insert into tl values (1); 

INSERT 0 1 

dbl-£ create view vl as select * from tl; 
CREATE VIEW 

dbl=# select * from v1; 


(1 row) 


db1=# drop table t1; 

NOTICE: rule RETURN on view vl depends on append only table t1 

NOTICE: view vl depends on rule RETURN on view v1 

ERROR: cannot drop append only table tl because other objects depend on it 
HINT: Use DROP ... CASCADE to drop the dependent objects too. 

dbl=# drop table tl cascade; 

NOTICE: drop cascades to rule RETURN on view v1 

NOTICE: drop cascades to view v1 

DROP TABLE 


44.3 ”查看 表 对 应 的 HDFS 文件 
假设 在 数据 库 dbl 中 建立 了 表 public.t2， 使 用 以 下 步 又 查看 2 所 在 的 HDFS 文件 。 
(1) 确定 HAWQ 在 HDFS 上 的 根 目录 


dbi-£ select * from pg filespace entry; 
fsefsoid | fsedbid | fselocation 
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———— Gee ocean oi 
16384 | 0 | hdfs://mycluster/hawq_data 


可 以 看 到 ，HAWQ 在 HDFS 上 的 根 目录 是 /hawq_data。 实 验 环境 的 Hadoop 集群 配置 了 
HA, 所 以 文件 位 置 字 段 中 的 值 使 用 Nameservice ID Cmycluster) 代替 了 NameNode FQDN (Fully 
Qualified Domain Name) 。HDP HA 配置 将 在 第 11 章 “ 高 可 用 性 ”中 说 明 。 


(2) 检查 HAWQ 系统 目录 表 中 tl 的 相关 信息 
db1=# select d.dat2tablespace tablespace id, 
db1-# d.oid database_id, 
db1-# c.relfilenode table id 
db1-# from pg database d, pg class c, pg namespace n 
db1-# where c.relnamespace = n.oid 
db1-# and d.datname = current database() 
db1-# and n.nspname = 'public' 
db1-# and c.relname = 't2'; 

tablespace id | database id | table id 
ee De m pee es eei 

16385 | 25270 | 156634 
(1 row) 


-个 数据 库 中 不 同 schema 下 的 表 可 能 重 名 ， 但 对 应 的 表 ID 不 同 ， 因 此 需要 关联 
pg namespace 系统 表 。d.oid 是 一 个 系统 的 隐藏 列 ， 表 示 行 的 对 象 标识 符 ， 即 对 象 ID。 该 列 只 
有 在 创建 表 的 时 候 使 用 了 WITH OIDS ， 或 者 设置 了 default_with_oids 配置 参数 时 出 现 。 用 \d 
pg database 命令 是 看 不 到 oid 列 的 。 系 统 表 pg class 的 relhasoids 列 是 布尔 类 型 ，true 表示 对 
BAA OID. 
为 了 简化 对 表 的 管理 ， 每 个 表 中 的 数据 都 被 保存 在 一 个 HDFS 目录 中 。HAWQ 数据 库 表 
1E HDFS 上 的 目录 结构 为 “文件 空间 根 目录 / 表 空间 ID/ 数 据 库 ID/ 表 对 象 (分 区 表 对 象 ) ID”， 
例如 表 public. 所 对 应 的 HDFS 目录 为 /hawq_data/16385/25270/156634， 该 目录 下 是 实际 存储 
表 数 据 的 HDFS 文件 。 


(3) 查看 表 对 应 的 HDFS 文件 


[gpadmin@hdp3 ~]$ hdfs dfs -ls /hawq_data/16385/25270/156634 

Found 1 items 

cum —————— 3 gpadmin gpadmin 0 2017-03-30 11:05 
/hawq data/16385/25270/156634/1 
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创建 和 管理 视图 


视图 能 够 保存 经 常 使 用 的 或 者 复杂 的 查询 ， 然 后 将 它们 看 作 表 ， 在 SELECT 语句 中 进行 
访问 。 视 图 里 的 数据 并 不 独立 于 表 存 储 到 磁盘 。 当 访问 视图 时 ， 查 询 作为 一 个 子 查询 运行 。 
HAWQ 不 支持 物化 视图 。 

1. 创建 视图 


dbl=# create table tl (a int); 
CREATE TABLE 
dbl-£ insert into tl values (10); 


INSERT 0 1 
db1=# insert into tl values (1); 
INSERT 0 1 
db1=# select * from tl; 
a 
10 
i 
(2 rows) 


db1=# create view vl as select * from tl order by a; 
CREATE VIEW 
db1=# select * from v1; 


10 
(2 rows) 


dbl=# drop view vl; 
DROP VIEW 
dbl=# create view vl as select * from tl order by a desc; 


CREATE VIEW 
db1=# select * from v1; 


(2 rows) 


dbl=# select * from vl order by a; 
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10 
(2 rows) 
2. 查看 视图 定义 
db1=# \d v1 
View "public.v1" 

Column | Type | Modifiers 
二 一 全 一 4---------4----------- 
a | integer | 
View definition: 
SELECT tl.a 

FROM t1 

ORDER BY tl.a DESC; 


3. 删除 视图 


db1=# drop view v1; 


管理 其 他 对 象 


HAWQ 还 支持 自 定 义 数 据 类 型 、 自 定义 函数 、 序 列 等 对 象 。 如 果 使 用 过 Oracle 数据 库 ， 
对 这 些 对 象 一 定 不 会 陌生 。 
自 定义 数据 类 型 的 例子 : 


gpadmin=# \c dbl 

You are now connected to database "dbl" as user "gpadmin". 
dbl=# create type compfoo as (fl int, f2 text); 
CREATE TYPE 

dbl=# create table big objs ( 

db1 (# id integer, 

db1 (# obj compfoo 

db1(# ); 

CREATE TABLE 

dbl=# insert into big objs values (1, (1,'a')); 
INSERT 0 1 


序列 的 例子 : 


dbl=# create sequence myseq start 101; 
CREATE SEQUENCE 
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4 


4 e 7 小 结 


从 逻辑 上 看 ，HAWQ 的 文件 空间 是 表 空 间 的 集合 ， 而 在 物理 上 , 它们 都 对 应 HDFS 目录 。 
表 空 间 目录 是 文件 空间 目录 的 子 目录 。HAWQ 所 有 的 数据 ( 除 Master 上 的 全 局 系统 表 外 ) 都 
存储 在 文件 空间 目录 下 。HAWQ 系统 中 可 以 创建 多 个 数据 库 ， 每 个 数据 库 中 可 以 定义 多 个 模 
search_path 参数 指定 数据 库 对 象 所 属 模式 的 查找 顺序 。 和 其 他 关系 数据 库 类 似 ，HAWQ 
中 可 以 定义 表 、 视 图 、 函 数 、 数 据 类 型 、 序列 等 对 象 。 但 HAWQ 仅 支 持 表 列 上 的 非 空 与 CHECK 


式 。 


dbl=# select currval('myseq'), nextval('myseq'); 
ERROR: currval() not supported 
dbl=# select nextval('myseq'); 
nextval 
101 
(1 row) 


dbl-f select nextval('myseq'); 
nextval 


(1 row) 


自 定义 函数 将 在 第 9 章 “ 过 程 语言 ” 中 详细 阐述 。 


约束 ， 不 支持 主 外 键 和 索引 。 
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分 区 表 功能 通过 改善 可 管理 性 、 性 能 和 可 用 性 ， 为 各 式 应 用 带 来 了 便利 。 通 常 ， 分 区 可 以 
使 某 些 查询 以 及 维护 操作 的 性 能 得 到 提高 。 此 外 ， 分 区 还 可 以 简化 常见 的 管理 任务 ， 是 构建 高 
可 用 性 系统 的 关键 手段 。 本 章 说 明 HAWQ 支持 的 分 区 类 型 、 如 何 确定 分 区 策略 、 分 区 表 维护 
等 相关 问题 。 


5.1 Hawa 中 的 分 区 表 


与 大 多 数 关 系数 据 库 一 样 , HAWQ 也 支持 分 区 表 。 这 里 所 说 的 分 区 表 是 指 HAWQ 的 内 部 
分 区 表 ， 外 部 分 区 表 在 第 8 章 “ 数 据 管 理 ” 中 讨论 。 在 数据 仓库 应 用 中 ， 事 实 表 通 常 有 非常 多 
的 记录 ， 分 区 可 以 将 这 样 的 大 表 在 逻辑 上 分 为 小 的 、 更 易 管理 的 数据 片段 。HAWQ 的 查询 优 
化 器 支持 分 区 消除 以 提高 性 能 。 只 要 查询 使 用 分 区 键 作 为 过 滤 条 件 ， 那 么 HAWQ 只 需要 扫描 
满足 查询 条 件 的 分 区 ， 而 不 必 进 行 全 表 扫 描 。 

分 区 并 不 改变 表 数 据 在 Segment 间 的 物理 分 布 。 表 的 分 布 是 物理 的 , 无 论 是 分 区 表 还 是 非 
分 区 表 ，HAWQ 都 会 在 Segment 上 物理 地 分 布 数据 ， 并 且 并 行 处 理 查 询 。 而 表 的 分 区 是 逻辑 
上 的 ，HAWQ 逻辑 分 割 大 表 以 提高 查询 性 能 和 数据 仓库 应 用 的 可 维护 性 。 例 如 ， 将 老 的 分 区 
数据 从 数据 仓库 转 储 或 移 除 ， 并 建立 新 的 数据 分 区 等 。HAWQ 支持 以 下 分 区 类 型 : 


e 范围 分 区 : 基于 数字 范围 分 区 ， 如 日 期 、 价 格 等 。 
e 列表 分 区 : 基于 列表 值 分 区 ， 如 销售 区 域 、 产 品 分 类 等 。 
e ”两 者 混合 的 分 区 类 型 。 


图 5-1 是 一 个 混合 类 型 分 区 表 的 例子 ，sales 表 以 销售 日 期 范围 作为 主 分 区 ， 而 以 销售 区 
域 作 为 一 个 日 期 分 区 中 的 列表 子 分 区 键 。 注 意 ，HAWQ 并 没 提供 类 似 Oracle 的 在 线 重 定义 功 
能 , 它 只 能 使 用 CREATE TABLE 命令 创建 分 区 表 , 而 没有 简单 的 命令 能 够 将 一 个 非 分 区 表 转 
化 成 分 区 表 。 最 好 在 建 表 之 前 就 规划 好 分 区 方式 和 维护 方法 , 因为 当 一 个 非 分 区 表 已 经 存在 大 
量 数据 后 再 改作 分 区 表 的 操作 ， 时 间 和 空间 消耗 都 是 很 棘手 的 问题 。 
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date » 03-01-2008 Range Partition by date 
date « 03-31-2008 


date æ 01-01-2008 
date < 01-31-2008 


date » 02-01-2008 
date « 02-29-2008 





























图 5-1 范围 列表 混合 分 区 


1E CREATE TABLE 命令 中 使 用 PARTITION BY 或 可 选 的 SUBPARTITION BY 子 句 建立 
分 区 。 上 级 分 区 可 以 包含 一 个 或 多 个 下 级 分 区 。HAWQ 内 部 创建 上 下 级 分 区 之 间 的 层次 关系 。 
分 区 条 件 定义 一 个 分 区 内 可 以 包含 的 数据 。 在 建立 分 区 表 时 ，HAWQ 为 每 个 分 区 条 件 创建 一 
个 唯一 的 CHECK 约束 ， 限 制 一 个 分 区 所 能 含有 的 数据 ， 保 证 各 个 分 区 中 数据 的 互 斥 性 。 查 询 
优化 器 利用 该 CHECK 约束 ， 决 定 扫描 哪些 分 区 以 满足 查询 谓词 条 件 。 

HAWQ 在 系统 目录 中 存储 分 区 的 层次 信息 ， 因 此 插入 到 分 区 表 中 的 行 可 以 正确 传递 到 子 
分 区 中 。ALTER TABLE 命令 的 PARTITION 子 句 用 于 修改 分 区 表 结 构 。 在 向 分 区 表 插入 数据 
Wr, 可 以 在 INSERT 命令 中 指定 表 的 根 分 区 或 叶 分 区 。 如 果 数 据 对 于 指定 的 叶 分 区 无 效 , 将 返 
回 错误 。INSERT 命令 不 支持 向 非 叶 分 区 的 子 分 区 中 插入 数据 。 


5.2 确定 分 区 策略 


并 不 是 所 有 表 都 适合 分 区 , 需要 进行 实测 以 保证 所 期 望 的 性 能 提升 。 下 面 是 一 些 通用 的 分 
区 指南 , 如 果 对 以 下 问题 的 大 部 分 答案 是 肯定 的 , 那么 分 区 表 对 于 提高 性 能 来 说 是 可 行 的 数据 
库 设计 方法 。 否 则 ， 表 不 适合 分 区 。 
@。” 表 是 否 足够 大 ? 按照 一 般 的 经 验 , 至 少 千 万 记录 以 上 的 表 才 算 大 表 。 数据 仓库 中 的 事 
实 表 适合 作为 分 区 表 。 对 于 小 于 这 个 数量 级 的 表 通 常 不 需要 分 区 , 因为 系统 管理 与 维 
护 分 区 的 开销 会 抵消 分 区 带 来 的 可 见 的 性 能 优势 。 
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e 性 能 是 否 不 可 接受 ? 只 有 当 实施 了 其 他 优化 手段 后 , 响应 时 间 仍 然 不 可 接受 时 , 再 考 
虑 使 用 分 区 。 
e 查询 谓词 条 件 中 是 否 包含 适合 的 分 区 键 ? 检查 查询 的 WHERE 子 名 中 是 否 包含 适 
作为 分 区 的 条 件 。 例 如 ,大 部 分 查询 都 通过 日 期 检索 数据 ,那么 按照 月 或 周 做 范围 
区 可 能 是 有 益 的 。 
e 是 否 需要 维护 一 个 数据 仓库 的 历史 数据 窗口 ? 例如 ,组 织 中 的 数据 仓库 只 需要 保持 过 
去 12 个 月 的 数据 ， 那 么 按 月 分 区 ， 就 可 以 很 容易 地 删除 最 老 的 月 份 分 区 ， 并 向 最 新 
的 月 份 分 区 中 装载 当前 数据 。 
€ ”根据 分 区 定义 条 件 , 是 否 每 个 分 区 的 数据 量 比较 平均 ?分 区 条 件 应 尽 可 能 使 数据 平均 
划分 。 如 果 每 个 分 区 包含 基本 相同 的 记录 数 ， 性 能 会 有 所 提升 。 例如， 将 一 个 大 表 分 
成 10 个 相等 的 分 区 ， 如 果 查 询 条 件 中 带 有 分 区 键 ， 那 么 理论 上 查询 应 该 比 非 分 区 表 
快 将 近 10 倍 。 
使 用 分 区 还 要 注意 以 下 问题 。 首先, 不 要 创建 多 余 的 分 区 。 太 多 的 分 区 将 会 减 慢 管理 和 维 
护 任务 ， 如 检查 磁盘 使 用 、 集 群 扩 展 、 释 放 剩余 空间 等 。 其次， 只 有 在 查询 条 件 可 以 利用 分 区 
消除 时 ， 性 能 才 会 得 到 提升 。 和 否则 ， 一 个 需要 扫描 所 有 分 区 的 查询 会 比 非 分 区 表 还 慢 。 可 以 通 
过 查看 一 个 查询 的 执行 计划 Cexplain plan) 确认 是 否 用 到 分 区 消除 。 最 后 是 关于 多 级 分 区 的 问 
题 。 多 级 分 区 会 使 分 区 文件 的 数量 快速 增长 。 例 如 ， 如 果 一 个 表 按 日 期 和 城市 做 分 区 ，1000 
天 的 1000 个 城市 的 数据 ， 就 会 形成 100 万 个 分 区 。 假 设 表 有 100 列 ， 并 且 假设 表 使 用 面向 列 
的 物理 存储 格式 ， 那 么 系统 需要 为 此 表 管 理 1 亿 个 文件 。 


合 
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5.3 创建 分 区 表 
如 前 所 述 ， 创 建 分 区 表 需 要 定义 分 区 键 、 分 区 类 型 、 分 区 层次 。 
5.3.1 范围 分 区 与 列表 分 区 


1. 定义 日 期 范围 分 区 表 


在 定义 日 期 分 区 表 时 , 需要 考虑 以 可 接受 的 细节 粒度 做 分 区 。 例如， 相对 于 以 月 份 做 主 分 
、 日 期 做 子 分 区 的 分 区 策略 ,每 个 日 期 一 个 分 区 ,一 年 365 个 分 区 的 方案 可 能 更 好 。 多 级 分 
可 以 降低 生成 查询 计划 的 时 间 ， 但 平面 化 的 分 区 设计 运行 得 更 快 。 
create table sales (id int, date date, amt decimal (10,2)) 
distributed by (id) 
partition by range (date) 

( start (date '2017-01-01') inclusive 

end (date '2017-02-01') exclusive 
every (interval '1 day') ); 


K 区 
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上 面 的 语句 以 date 列 作 为 分 区 键 ， 从 2017 年 1 月 1 月 到 2017 年 2 月 1 日 ,每 天 - 
区 ， 将 建立 31 个 分 区 。 分 区 对 应 表 对 象 的 名 称 分 别 是 sales 1 prt 1、 ... sales 1 prt 31。 
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注意 inclusive 表示 分 区 中 包含 定义 的 分 区 键 值 ，exclusive 表示 不 包含 。 例 如 ，sales 1 prt 1 
包含 date >= (date '2017-01-01') and date < (date '2017-01-020) 的 数据 ,sales 1 prt 31 包含 date >= 








(date '2017-01-31') and date < (date '2017-02-01') 的 数据 , 即 这 个 语句 定义 的 分 区 是 左 闭 右 
据 区 间 。 


db1=# insert into sales values (1, (date '2016-12-31'),100); 





ERROR: no partition for partitioning key (seg21 hdp4:40000 pid=60186) 


dbl=# insert into sales values (1, (date '2017-01-01'),100); 
INSERT 0 1 
dbl=# insert into sales values (1, (date '2017-01-31'),100); 
INSERT 0 1 
dbl-£ insert into sales values (1, (date '2017-02-01'),100); 


ERROR: no partition for partitioning key (seg23 hdp4:40000 pid=60190) 


同样 可 以 定义 左 开 右 闭 的 分 区 。 
create table sales (id int, date date, amt decimal (10,2)) 
distributed by (id) 
partition by range (date) 
( start (date '2017-01-01') exclusive 
end (date '2017-02-01') inclusive 
every (interval '1 day') ); 


dbl=# insert into sales values (1, (date '2017-01-01'),100); 


ERROR: no partition for partitioning key (segl9 hdp4:40000 pid=60182) 


dbl=# insert into sales values (1, (date '2017-01-02'),100); 
INSERT 0 1 
dbl=# insert into sales values (1, (date '2017-01-31'),100); 
INSERT 0 1 
dbl=# insert into sales values (1, (date '2017-02-01'),100); 
INSERT 0 1 


也 可 以 显 式 定义 每 个 分 区 。 


create table sales (id int, date date, amt decimal(10,2)) 

distributed by (id) 

partition by range (date) 

( partition p201701 start (date '2017-01-01') inclusive , 
partition p201702 start (date '2017-02-01') inclusive , 
partition p201703 start (date '2017-03-01') inclusive , 
partition p201704 start (date '2017-04-01') inclusive , 
partition p201705 start (date '2017-05-01') inclusive , 
partition p201706 start (date '2017-06-01') inclusive , 
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partition p201707 start (date '2017-07-01') inclusive , 

partition p201708 start (date '2017-08-01') inclusive , 

partition p201709 start (date '2017-09-01') inclusive , 

partition p201710 start (date '2017-10-01') inclusive , 

partition p201711 start (date '2017-11-01') inclusive , 

partition p201712 start (date '2017-12-01') inclusive 
end (date '2018-01-01') exclusive ); 


上 面 的 语句 为 2017 年 每 个 月 建立 一 个 分 区 。 注 意 ， 不 需要 为 每 个 分 区 指定 END fH. H 
要 在 最 后 一 个 分 区 本 例 中 的 p201712) 指定 END 值 即 可 。 





dbl=# create table rank (id int, rank int, year int, gender 

db1(# char(1), count int) 

db1-# distributed by (id) 

db1-# partition by range (year) 

db1-# ( start (2017) end (2018) every (1), 

db1(# default partition extra ); 

NOTICE: CREATE TABLE will create partition "rank 1 prt extra" for table "rank" 
NOTICE: CREATE TABLE will create partition "rank 1 prt 2" for table "rank" 
CREATE TABLE 





db1=# \dt 
List of relations 
Schema | Name | Type | Owner | Storage 
4------------------4-------4--------- 4------------- 
public | rank | table | gpadmin | append only 
public | rank 1 prt 2 | table | gpadmin | append only 


public | rank 1 prt extra | table | gpadmin | append only 
(3 rows) 


dbl=# insert into rank values (1,1,2016,'M',100); 
INSERT 0 1 

dbl=# insert into rank values (1,1,2017,'M',100); 
INSERT 0 1 

dbl-£ insert into rank values (1,1,2018,'M',100); 
INSERT 0 1 

dbl=# insert into rank values (1,1,2019,'M',100); 
INSERT 0 1 

dbl=# select * from rank; 

id | rank | year | gender | count 





= 
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1 eZ ON TAM, | 100 
(4 rows) 


dbl=# select * from rank 1 prt 2; 
id rank | year | gender | count 
----4------ 4------ 4-------- 4------- 


1 1 2017 | M | 100 


db1=# select * from rank 1 prt extra; 


id rank year | gender | count 








----4------ 4------ 4-------- 4------- 
i 1 2016 | M | 100 
1 il 2018 | M | 100 
i 1 2019 | M | 100 

(3 rows) 


dbl=# drop table rank; 
DROP TABLE 

db1=# \dt 

No relations found. 


从 上 面 的 例子 看 到 : 

© HAWQ 默认 的 分 区 范围 是 左 闭 右 开 。 

€ 可 以 使 用 default partition 子 句 增加 一 个 默认 分 区 , 当 数 据 不 包含 在 任何 明确 定义 的 分 
区 时 ， 被 包含 在 默认 分 区 中 。 

© HAWQ 在 查询 时 可 以 将 分 区 当 作 表 看 待 ， 但 删除 主 表 后 ， 分 区 被 一 并 删除 。 

3. 定义 列表 分 区 表 

列表 分 区 可 以 使 用 任何 允许 等 值 比较 数据 类 型 的 列 作为 分 区 键 。 列 表 分 区 表 必 须 显 式 定义 


每 个 分 区 。 注 意 列表 中 的 字符 比较 区 分 大 小 写 。 
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db1=# create table rank (id int, rank int, year int, gender 

db1(# char(1), count int ) 

db1-# distributed by (id) 

dbl-£ partition by list (gender) 

dbl-# ( partition girls values ('f'), 

dbl(f partition boys values ('m'), 

db1(# default partition other ); 

NOTICE: CREATE TABLE will create partition "rank 1 prt girls" for table "rank" 
NOTICE: CREATE TABLE will create partition "rank 1 prt boys" for table "rank" 
NOTICE: CREATE TABLE will create partition "rank 1 prt other" for table "rank" 
CREATE TABLE 


append only 
append only 
append only 
append only 


db1=# \dt 
List of relations 
Schema | Name | Type | Owner 
-------- +------------------+-------+---------+------------- 
public | rank | table | gpadmin | 
public | rank 1 prt boys | table | gpadmin | 
public | rank 1 prt girls | table | gpadmin 
public | rank 1 prt other | table | gpadmin 
(4 rows) 
dbl=# insert into rank values (1,1,2016,'M',100); 
INSERT 0 1 
dbl=# insert into rank values (1,1,2016,'m',100); 
INSERT 0 1 
dbl=# insert into rank values (1,1,2016,'f',100); 
INSERT 0 1 
db1=# insert into rank values (1,1,2016,'F',100); 
INSERT 0 1 
db1=# insert into rank values (1,1,2016,'A',100); 
INSERT 0 1 
db1=# select * from rank; 
id | rank | year | gender | count 
----+------ 4------ 4-------- 4------- 
a 1 J 2016] £ | 100 
ay | t 1 2016 | m | 100 
a || 1 | 2016 | M | 100 
i p t 1.2016 E | 100 
| 1 | 2016| 2 | 100 
(5 rows) 
dbl=# select * from rank 1 prt boys; 
id | rank | year | gender | count 
Canaan Pier tia aaa 
m | 100 





dbl=# select 
id 


rank 1 prt girls; 


| rank | 


gender | count 





Satie 






(1 row) 


dbl=# select * from rank 1 prt other; 
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id | rank | year | gender | count 


—— 十 一 一 一 一 一 一 千 一 一 一 一 一 一 一 一 | 中 一 一 一 一 一 一 一 
a T | i NM: 1 100 
i || aL | 2016 | F | 100 
ik JI E 206i A | 100 

(3 rows) 


HAWQ 不 支持 多 分 区 键 列 复合 比较 ， 分 区 键 只 能 是 单列 。 


dbl=# create table rank (id int, rank int, year int, gender 
db1(# char(1), count int ) 

db1-# distributed by (id) 

db1-# partition by list (gender, year) 

db1-# ( partition girls values ('f',2017), 

db1(# partition boys values ('m',2018), 

db1(# default partition other ); 

ERROR: Composite partition keys are not allowed 


5.3.2 多 级 分 区 


可 以 在 分 区 中 定义 子 分 区 。 使 用 subpartition template 子 句 保 证 每 个 分 区 都 有 相同 的 子 分 区 


定义 ， 包 括 以 后 添加 的 分 区 。 


create table sales (trans id int, date date, amount decimal(9,2), region text) 

distributed by (trans id) 

partition by range (date) 

subpartition by list (region) 

subpartition template 

( subpartition usa values ('usa'), 
subpartition asia values ('asia'), 
subpartition europe values ('europe'), 
default subpartition other regions) 
(start (date '2017-01-01') inclusive 
end (date '2018-01-01') exclusive 
every (interval '1 month'), 
default partition outlying dates ); 


上 面 这 条 语句 一 共 建立 了 65 个 分 区 。 一 级 分 区 13 个 , 每 个 一 级 分 区 包含 4 个 子 分 区 。 范 





围 上 的 多 级 分 区 很 容易 建立 大 量 分 区 ， 其 中 有 些 分 区 可 能 只 有 很 少 的 数据 ， 甚 至 没有 数据 。 随 
着 分 区 数量 的 增加 ,系统 表 的 记录 不 断 增长 ， 查询 优化 和 执行 时 所 需 的 内 存 也 会 增加 。 加 大 范 
围 分 区 的 粒度 或 者 选择 不 同 的 分 区 策略 有 助 于 减少 分 区 数量 。 





5.8.8 ”对 已 存在 的 非 分 区 表 进 行 分 区 


86 


正如 本 章 开 始 所 提 到 的 ，HAWQ 只 能 使 用 CREATE TABLE 命令 创建 分 区 表 。 如 果 想 对 
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一 个 已 经 存在 的 表 进 行 分 区 , 只 能 这 样 做 : 新 建 分 区 表 一 将 原 表 数 据 导入 分 区 表 一 删除 原 表 一 
分 区 表 改 名 一 分 析 分 区 表 一 对 新 建 的 分 区 表 重 新 授权 。 例 如 : 


create table sales2 (like sales) 





partition by range (date) 

( start (date '2017-01-01') inclusive 
end (date '2018-01-01') exclusive 
every (interval '1 month') ); 

insert into sales2 select * from sales; 

drop table sales; 

alter table sales2 rename to sales; 

analyze sales; 

grant all privileges on sales to admin; 

grant select on sales to guest; 


查询 pg. partitions 视图 可 以 获取 分 区 定义 。 


select partitionboundary, 
partitiontablename, 
partitionname, 
partitionlevel, 
partitionrank 
from pg partitions 
where tablename-'sales'; 


以 下 表 和 视图 提供 了 分 区 表 的 相关 信息 : 


© pg partition: 分 区 表 及 其 层级 关系 。 
€ pg partition templates: 子 分 区 使 用 的 模板 。 
© pg partition columns: 分 区 键 列 。 





分 区 消除 


使 用 EXPLAIN 可 以 检查 查询 的 执行 计划 ， 验 证 查询 优化 器 是 否 只 扫描 了 相关 分 区 的 数 
据 。 下 面 以 sales 表 上 的 年 、 月 、 地 区 三 级 分 区 为 例 进行 说 明 。 该 sales 表 最 底层 存储 数据 的 分 
区 共有 4* 13* 4=208 个 。 








create table sales (id int, year int, month int, day int, region text) 
distributed by (id) 
partition by range (year) 
subpartition by range (month) 
subpartition template ( 
start (1) end (13) every (1), 
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default subpartition other_months ) 
subpartition by list (region) 
subpartition template ( 
subpartition usa values (' 北 京 ')， 
subpartition europe values (' 上 海 ')， 
subpartition asia values (' 广 州 ')， 
default subpartition other regions ) 
( start (2017) end (2020) every (1), 
default partition outlying years ); 


1. 插入 一 条 数据 


dbl=# select * from sales; 
id | year | month | day | region 
----4------ 4------- 4----- 4-------- 


(0 rows) 


db1=# insert into sales values (1,2017,1,1,' 北 京 '); 
INSERT 0 1 

dbl=# select * from sales; 

id | year | month | day | region 


1 Jg 20:71 i y * gt 
(1 row) 


2. 无 条 件 查询 
查询 计划 如 下 : 


db1=# explain select * from sales; 
QUERY PLAN 





Gather Motion 24:1 (slicel; segments: 24) (cost=0.00..431.00 rows=1 
width=24) 
-> Sequence (cost=0.00..431.00 rows=1 width=24) 
-> Partition Selector for sales (dynamic scan id: 1) 
(cost=10.00..100.00 rows=5 width=4) 
Partitions selected: 208 (out of 208) 
-» Dynamic Table Scan on sales (dynamic scan id: 1) (cost=0.00..431.00 
rows=1 width-24) 
Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 
(7 rows) 


可 以 看 到 ， 该 查询 扫描 了 全 部 208 个 分 区 ， 没 有 分 区 消除 。 
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3. 以 年 为 条 件 查询 
查询 计划 如 下 : 


dbl=# explain select * from sales where year=2017; 
QUERY PLAN 


Gather Motion 24:1 (slicel; segments: 24) (cost=0.00..431.00 rows=1 width=24) 
-> Sequence (cost=0.00..431.00 rows=1 width=24) 
-> Partition Selector for sales (dynamic scan id: 1) 
(cost=10.00..100.00 rows=5 width=4) 
Filter: year = 2017 
Partitions selected: 104 (out of 208) 


-> Dynamic Table Scan on sales (dynamic scan id: 1) (cost=0.00..431.00 
rows=1 width=24) 


Filter: year = 2017 
Settings: default_hash_table_bucket_number=24 
Optimizer status: PQO version 1.684 
(9 rows) 


可 以 看 到 ， 该 查询 扫描 了 全 部 208 个 分 区 的 一 半 ，104 个 分 区 。 顶 级 年 份 分 区 有 4 个 ,为 
什么 where year=2017 要 扫描 104 而 不 是 52 个 分 区 呢 ? 在 运行 时 , 查询 优化 器 会 扫描 这 个 表 的 
层级 关系 ， 并 使 用 CHECK 表 约 束 确定 扫描 哪些 满足 查询 条 件 的 分 区 。 如 果 存 在 DEFAULT 
分 区 ， 则 它 总 是 被 扫描 ， 因 此 该 查询 扫描 year=2017 和 default 两 个 分 区 ， 这 就 是 扫描 的 分 区 
数 是 104 而 不 是 52 的 原因 。 可 见 , 包 含 DEFAULT 分 区 会 增加 整体 扫描 时 间 。 按 理 说 DEFAULT 
与 其 他 所 有 分 区 的 数据 都 是 互 斥 的 ,完全 不 必 在 可 以 确定 分 区 的 条 件 下 再 去 扫描 它 ， 这 是 不 是 
HAWQ 查询 优化 器 的 一 个 bug 也 未 可 知 。 


4. 以 年 、 月 为 条 件 查询 
查询 计划 如 下 : 


dbl=# explain select * from sales where year=2017 and month=1; 
QUERY PLAN 


Gather Motion 24:1 (slicel; segments: 24) (cost=0.00..431.00 rows=1 
width=24) 
-> Sequence (cost=0.00..431.00 rows=1 width=24) 
-> Partition Selector for sales (dynamic scan id: 1) 
(cost=10.00..100.00 rows=5 width=4) 
Filter: year = 2017 AND month = 1 
Partitions selected: 16 (out of 208) 


-> Dynamic Table Scan on sales (dynamic scan id: 1) (cost=0.00..431.00 
rows=1 width=24) 


Filter: year = 2017 AND month = 1 


89 


Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 
(9 rows) 


这 次 只 扫描 了 16 个 分 区 。 同 样 道理 本 应 只 扫描 4 个 底层 分 区 ， 因 为 DEFAULT 的 存在 ， 
需要 扫描 16 个 分 区 。 


5. 以 年 、 月 、 地 区 为 条 件 查询 
查询 计划 如 下 : 


db1=# explain select * from sales where year=2017 and month=1 and region=' 北 





QUERY PLAN 


Gather Motion 24:1 (slicel; segments: 24) (cost=0.00..431.00 rows=1 width=24) 
-> Sequence (cost=0.00..431.00 rows=1 width=24) 
-> Partition Selector for sales (dynamic scan id: 1) 
(cost=10.00..100.00 rows=5 width=4) 
Filter: year = 2017 AND month = 1 AND region = ' 北 京 '::text 
Partitions selected: 1 (out of 208) 
-> Dynamic Table Scan on sales (dynamic scan id: 1) (cost=0.00..431.00 
rows=1 width=24) 
Filter: year = 2017 AND month = 1 AND region = ' 北 京 '::text 
Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 
(9 rows) 


这 次 只 需 扫 描 一 个 分 区 。 当 查询 中 包含 所 有 层级 的 谓词 条 件 时 ， 没 有 扫描 DEFAULT, 而 
是 唯一 确定 了 一 个 分 区 。 

6. 以 DEFAULT 条 件 查询 

查询 计划 如 下 : 


db1=# explain select * from sales where year=2016; 
QUERY PLAN 
Gather Motion 24:1 (slicel; segments: 24) (cost=0.00..431.00 rows-1 width-24) 
-» Sequence (cost=0.00..431.00 rows-1 width-24) 
-» Partition Selector for sales (dynamic scan id: 1) 
(cost-10.00..100.00 rows-5 width-4) 
Filter: year - 2016 
Partitions selected: 52 (out of 208) 
-> Dynamic Table Scan on sales (dynamic scan id: 1) (cost=0.00..431.00 
rows-1 width-24) 
Filter: year - 2016 
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Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 
(9 rows) 


这 次 只 要 扫描 年 份 DEFAULT 分 区 下 的 52 个 子 分 区 。 
HAWQ 的 分 区 消除 有 以 下 限制 : 


e ”查询 优化 器 只 有 在 查询 条 件 中 包含 =、<、<=、>、>=、<> 等 比较 运算 符 时 才 可 能 应 
用 分 区 消除 。 

€ ”对 于 稳定 的 函数 会 应 用 分 区 消除 ， 对 于 易 变 函数 不 会 应 用 分 区 消除 。 例 如 ，WHERE 
date2 CURRENT DATE 会 应 用 分 区 消除 ， 而 time 一 TIMEOFDAY 则 不 会 。 


2.9 分 区 表 维 护 


ALTER TABLE 命令 维护 分 区 表 。 尽 管 可 以 通过 引用 分 区 对 应 的 表 对 象 的 名 字 进 行 查询 和 
装载 数据 ， 但 修改 分 区 表 结 构 时 ， 只 能 使 用 ALTER TABLE...PARTITION 引用 分 区 的 名 字 。 
可 以 使 用 PARTITION FOR (value) 或 PARTITION FOR(RANK(number)) 指 示 分 区 。HAWQ 不 
支持 在 多 级 分 区 上 的 如 下 操作 : 

© ”增加 上 默认 分 区 
增加 分 区 
删除 默认 分 区 
删除 分 区 
分 裂 分 区 
所 有 修改 子 分 区 的 操作 

1. 增加 分 区 

-- 给 sales 表 增 加 2016 年 的 分 区 

alter table sales add partition start (2016) inclusive end (2017) exclusive; 

使 用 add partition 增加 分 区 时 不 能 存在 DEFAULT 分 区 ， 和 否则 会 报 类 似 下 面 的 错误 ， 这 时 
需要 使 用 split partition 增加 分 区 : 


ERROR: cannot add RANGE partition to relation "sales" with DEFAULT partition 


"outlying years" 
HINT: need to SPLIT partition "outlying years" 


为 一 个 分 区 表 增 加 子 分 区 时 ， 可 以 指定 需要 修改 的 分 区 。 


alter table sales alter partition for (rank(12)) 





add partition shenzhen values (' 深 圳 '); 
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alter table sales alter partition for (rank(1)) 
add partition shenzhen values (' 深 圳 '); 


2. 增加 默认 分 区 
alter table sales add default partition other; 

如 果 没 有 DEFAULT 分 区 , 不 能 匹配 分 区 CHECK 约束 的 数据 行将 被 拒绝 入 库 , 并且 数据 
装载 失败 。 通 常 为 了 避免 出 现 这 种 情况 而 指定 DEFAULT 分 区 ， 任 何不 能 与 其 他 分 区 匹配 的 
行 都 被 装载 进 DEFAULT 分 区 。 

3. 分 区 改名 

每 个 子 分 区 对 应 一 个 表 对 象 ， 可 以 用 \dt 元 命令 查看 到 。 如 果 是 自动 生成 的 范围 分 区 , 没 
有 指定 名 称 的 分 区 被 赋予 一 个 数字 。 分 区 对 应 表 对 象 的 命名 规则 如 下 : 

<parentname>_<level>_prt_<partition_name> 

例如 : 

sales 1 prt 1 2 prt 11 3 prt other regions 

上 面 的 名 称 表 示 该 分 区 名 为 "other regions'， 是 sales 表 的 一 个 第 三 级 分 区 ， 隶 属 第 一 级 的 
1 号 分 区 下 的 第 二 级 的 11 号 分 区 下 。 

修改 顶级 父 表 的 名 称 ， 会 重 命名 所 有 分 区 子 表 名 。 

alter table sales rename to globalsales; 

相关 的 分 区 子 表 名 变 为 : 

globalsales 1 prt 1 2 prt 11 3 prt other regions 

也 可 以 将 顶级 分 区 名 改 为 自 定义 的 名 称 : 

alter table sales rename partition for (2017) to y2017; 

表 对 象 名 的 最 大 长 度 为 64 字 节 ， 超 长 会 报错 : 


dbl=# alter table globalsales rename partition for (2017) to year2017; 
ERROR: relation name 
"globalsales 1 prt year2017 2 prt other months 3 prt other regions" for child 








partition is too long 

使 用 ALTER TABLE...PARTITION 命令 修改 分 区 表 时 ， 总 是 用 分 区 名 称 〈 如 y2017) 而 
不 是 分 区 对 应 的 表 对 象 全 名 〈globalsales 1 prt y2017) 。 

4. 删除 分 区 

ALTER TABLE 命令 也 可 用 来 删除 分 区 ， 如 果 被 删除 的 分 区 有 子 分 区 , 则 这 些 子 分 区 及 其 
数据 也 都 被 一 起 删除 。 


alter table globalsales drop partition for (2017); 
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alter table globalsales drop partition for (2018); 


不 能 删除 最 后 一 个 分 区 : 


dbl=# alter table globalsales drop partition for (2019); 

ERROR: cannot drop partition for value (2019) of relation "globalsales" -- only 
one remains 

HINT: Use DROP TABLE "globalsales" to remove the table and the final partition 


5. 清空 分 区 

使 用 ALTER TABLE 命令 清空 一 个 分 区 及 其 所 有 子 分 区 的 数据 。 不 能 单独 清空 一 个 子 分 区 。 
alter table globalsales truncate partition for (2018); 

6. 分 区 交换 

分 区 交换 指 的 是 将 一 个 表 的 数据 与 一 个 分 区 的 数据 互 换 。HAWQ 只 支持 单 级 分 区 表 的 分 





dbl=# alter table sales exchange partition for (2017) 
db1-# with table stage_sales; 
ERROR: cannot EXCHANGE PARTITION for relation "sales"-- partition has children 


分 区 交换 经 常 被 用 来 向 分 区 表 装 载 数据 。 当 然 也 能 使 用 COPY R INSERT 命令 向 分 区 表 
装载 数据 ， 此 时 数据 被 自动 路 由 到 正确 的 底层 分 区 ， 就 像 普 通 表 一 样 。 但 是 ， 这 种 装载 数据 的 
方法 会 根据 数据 遍历 整个 分 区 层次 结构 , 因此 数据 装载 的 性 能 很 差 。 在 前 面 208 个 分 区 的 例子 
中 ， 插 入 一 条 记录 竞 然 用 时 16 HE: 

db1=# \timing 

Timing is on. 

dbl=# insert into sales values (2,2017,2,2,' 上 海 '); 

INSERT 0 1 

Time: 16512.156 ms 


向 分 区 表 装 载 数 据 的 推荐 方法 是 : 创建 一 个 中 间 过 渡 表 , 装载 过 渡 表 ,然后 用 过 渡 表 与 分 
区 做 交换 。 
db1=# -- 创建 分 区 表 


dbl=# create table sales (id int, year int, month int, day int, region 








varchar (10) ) 
db1-# distributed by (id) 
db1-# partition by range (year) 
db1-# ( start (2017) end (2020) every (1)); 
NOTICE: CREATE TABLE will create partition "sales 1 prt 1" for table "sales" 
NOTICE: CREATE TABLE will create partition "sales 1 prt 2" for table "sales" 
NOTICE: CREATE TABLE will create partition "sales 1 prt 3" for table "sales" 
CREATE TABLE 
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db1=# -- 添加 记录 

dbl=# insert into sales values 

db1-# (1,2017,1,1,'4b3t'), (2,2018,2,2,' E#$"), (3,2019,3,3, HM"); 
INSERT 0 3 

db1=# -- 增加 分 区 

dbl=# alter table sales add partition start (2020) inclusive end (2021) 


exclusive; 


NOTICE: CREATE TABLE will create partition "sales 1 prt_r1873705512" for table 


"sales" 


ALTER TABLE 

db1=# -- 创建 过 渡 表 

dbl=# create table stage sales (like sales); 

NOTICE: Table doesn't have 'distributed by' clause, defaulting to distribution 


columns from LIKE table 


CREATE TABLE 

db1=# -- 添加 新 数据 

db1=# insert into stage sales values (4,2020,4,4,' 深 圳 '); 

INSERT 0 1 

dbl=# -- 交换 分 区 

db1=# \timing 

Timing is on. 

dbl=# alter table sales exchange partition for (2020) with table stage sales; 
ALTER TABLE 

Time: 61.744 ms 


使 用 这 种 交换 分 区 的 方法 会 快 得 多 ， 同 样 是 添加 一 行 ， 这 次 只 用 了 61 毫秒 。 此 时 分 区 表 


中 有 4 条 数据 ， 而 过 渡 表 没有 数据 。 
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db1=# \dt 

List of relations 
Schema | Name | Type | Owner | Storage 
-------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 ~ 一 一 一 一 一 一 一 一 一 一 一 一 
public | sales | table | gpadmin | append only 
public | sales 1 prt 1 | table | gpadmin | append only 
public | sales 1 prt 2 | table | gpadmin | append only 
public | sales 1 prt 3 | table | gpadmin | append only 
public | sales 1 prt r1524203752 | table | gpadmin | append only 
public | stage sales | table | gpadmin | append only 
(6 rows) 


dbl-£ select * from sales; 
id | year | month | day | region 
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4 | 2020 | 4 | 4 | Xl 
19g 20:7 ] 2 a d 
2 | 2018 | 20] 20 EN 
(4 rows) 


db1=# select * from stage sales; 
id | year | month | day | region 
----4------ 4------- *----- 4-------- 
(0 rows) 


7. 分 裂 分 区 
分 裂 分 区 指 的 是 将 一 个 分 区 分 裂 成 两 个 HAW 只 能 分 裂 单 级 分 区 表 。 


dbl-f alter table sales split partition for (2017) 
db1-# at (2016) 
db1-# into (partition y016, partition y2017); 





ERROR: cannot split partition with child partitions 
HINT: Try splitting the child partitions. 


下 面 的 例子 将 2017 年 1 月 的 分 区 分 割 成 2017 年 1 月 1 日 到 2017 年 1 月 15 日 ,2017 年 1 
月 16 日 到 2017 年 1 月 31 日 两 个 分 区 ， 分 割 值 包含 在 后 一 个 分 区 中 。 


dbl=# create table sales (id int, date date, amt decimal(10,2)) 

db1-# distributed by (id) 

db1-# partition by range (date) 

db1-# ( partition p201701 start (date '2017-01-01') inclusive , 

dbl(# partition p201702 start (date '2017-02-01') inclusive 

db1 (# end (date '2017-03-01') exclusive ); 

NOTICE: CREATE TABLE will create partition "sales 1 prt p201701" for table 
"sales" 

NOTICE: CREATE TABLE will create partition "sales 1 prt p201702" for table 
"sales" 

CREATE TABLE 

dbl=# insert into sales values (1, date '2017-01-15', 100); 

INSERT 0 1 

dbl=# insert into sales values (1, date '2017-01-16', 100); 

INSERT 0 1 

dbl=# select * from sales 1 prt p201701; 

id | date | amt 


1 | 2017-01-15 | 100.00 
1 | 2017-01-16 | 100.00 
(2 rows) 


dbl-f alter table sales split partition for ('2017-01-01') at ('2017-01-16') 
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db1-# into (partition p20170101to0115, partition p20170116to0131); 

NOTICE: exchanged partition "p201701" of relation "sales" with relation 
"pg temp 68011" 

NOTICE: dropped partition "p201701" for relation "sales" 

NOTICE: CREATE TABLE will create partition "sales 1 prt p20170101to0115" for 
table "sales" 

NOTICE: CREATE TABLE will create partition "sales 1 prt p20170116to0131" for 
table "sales" 


ALTER TABLE 
db1=# select * from sales 1 prt p20170101to0115; 
id date | amt 





il 2017-01-15 | 100.00 


(1 row) 


db1=# select * from sales 1 prt_p20170116t00131; 
id date | amt 





il 2017-01-16 | 100.00 


(1 row) 


如 果 表 有 DEFAULT 分 区 ， 必 须 使 用 分 裂 分 区 的 方法 添加 分 区 。 使 用 INTO 子 句 的 第 二 个 
分 区 为 DEFAULT 分 区 。 


dbl=# alter table sales add default partition other; 

NOTICE: CREATE TABLE will create partition "sales 1 prt other" for table 
"sales" 

ALTER TABLE 

dbl=# insert into sales values (3, date '2017-03-01', 100); 


INSERT 0 1 

dbl=# insert into sales values (4, date '2017-04-01', 100); 
INSERT 0 1 

db1=# select * from sales 1 prt other; 

id | date | amt 

Seo So SS 


4 | 2017-04-01 | 100.00 
3 | 2017-03-01 | 100.00 
(2 rows) 


dbl-£ alter table sales split default partition 

dbl-£ start ('2017-03-01') inclusive 

db1-# end ('2017-04-01') exclusive 

dbl-# into (partition p201703, default partition); 

NOTICE: exchanged partition "other" of relation "sales" with relation 
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"pg temp 68051" 

NOTICE: dropped partition "other" for relation "sales" 

NOTICE: CREATE TABLE will create partition "sales 1 prt p201703" for table 
"sales" 

NOTICE: CREATE TABLE will create partition "sales 1 prt other" for table 
"soles" 


ALTER TABLE 
db1=# select * from sales 1 prt p201703; 
id date | amt 
eee eee aaa 
3 | 2017-03-01 | 100.00 
(1 row) 


db1=# select * from sales 1 prt other; 





id date | amt 
Soe cee enone eee wee eee. 
4 2017-04-01 | 100.00 

(1 row) 
8. 修改 子 分 区 模板 


ALTER TABLE SET SUBPARTITION TEMPLATE 修改 一 个 分 区 表 的 子 分 区 模板 。 新 模板 
只 影响 后 面 添加 的 数据 ， 不 修改 现 有 的 分 区 数据 。 


db1=# create table sales (trans id int, date date, amount decimal(9,2), region 
text) 

db1-# distributed by (trans id) 

db1-# partition by range (date) 

db1-# subpartition by list (region) 

dbl-#  subpartition template 


db1-# ( subpartition usa values ('usa'), 

db1 (4 subpartition asia values ('asia'), 

db1 (4 subpartition europe values ('europe'), 
db1 (# default subpartition other regions ) 


db1-#  ( start (date '2017-01-01') inclusive 

db1 (4 end (date '2017-04-01') exclusive 

db1 (# every (interval '1 month') ); 

NOTICE: CREATE TABLE will create partition "sales 1 prt 1" for table "sales" 


CREATE TABLE 

dbl=# alter table sales set subpartition template 
db1-# ( subpartition usa values ('usa'), 

dbl (#  subpartition asia values ('asia'), 

dbl (#  subpartition europe values ('europe'), 
dbl(#  subpartition africa values ('africa'), 
dbl(f default subpartition regions ); 


97 


NOTICE: replacing level 1 subpartition template specification for relation 
"sales" 
ALTER TABLE 


当 添 加 一 个 分 区 时 ， 使 用 新 的 子 分 区 模板 。 


dbl=# alter table sales add partition "4" 

db1-# start ('2017-04-01') inclusive 

db1-# end ('2017-05-01') exclusive ; 

NOTICE: CREATE TABLE will create partition "sales 1 prt 4" for table "sales" 


ALTER TABLE 
dbl-£ \dt sales* 
List of relations 





Schema | Name | Type | Owner Storage 
-T------- 4------------------------------4-------4---------4------------- 
public | sales 1 prt 3 | table | gpadmin | append only 
public | sales 1 prt 3 2 prt asia | table | gpadmin | append only 
public | sales 1 prt 3 2 prt europe | table | gpadmin | append only 
public | sales 1 prt 3 2 prt other regions| table | gpadmin | append only 
public | sales 1 prt 3 2 prt usa | table | gpadmin | append only 
public | sales 1 prt 4 | table | gpadmin append only 
public | sales 1 prt 4 2 prt africa | table | gpadmin | append only 
public | sales 1 prt 4 2 prt asia | table | gpadmin | append only 
public | sales 1 prt 4 2 prt europe | table | gpadmin | append only 
public | sales 1 prt 4 2 prt regions | table | gpadmin | append only 
public | sales 1 prt 4 2 prt usa | table | gpadmin | append only 
(22 rows) 


下 面 的 命令 移 除 子 分 区 模板 : 


alter table sales set subpartition template (); 





小 结 


和 大 多 数 数据 库 系 统 类 似 ，HAWQ 也 支持 范围 分 区 、 列 表 分 区 和 混合 分 区 。 分 区 主要 起 
到 两 方面 作用 : 利用 分 区 消除 提高 查询 性 能 ， 增 强 表 的 可 维护 性 。 每 个 分 区 对 应 一 个 HAWQ 
表 对 象 .可 以 定义 默认 分 区 存储 不 属于 其 他 任何 分 区 的 数据 ,但 这 样 做 可 能 对 性 能 有 负面 影响 。 
HAWQ 支持 增加 、 删 除 、 清 空 、 分 裂 、 交 换 、 修 改 子 分 区 模板 等 常规 的 分 区 维护 操作 ， 但 有 
- 些 限制 。HAWQ 不 支持 在 线 重 定义 ， 因 此 要 将 非 分 区 表 改 成 分 区 表 ， 只 能 通过 创建 新 的 分 
区 表 并 重新 装载 数据 的 方式 实现 。 
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s 人 音 


RoR 
< FRBI > 


在 HAWQ 中 创建 一 个 表 时 ， 应 该 预先 对 数据 如 何 分 布 、 表 的 存储 选项 、 数 据 导入 导出 方 
式 和 其 他 HAWQ 特性 做 出 选择 ， 这 些 都 将 对 查询 性 能 产生 极 大 影响 。 理 解 有 效 选 项 的 含义 以 
及 如 何在 数据 库 中 使 用 它们 ， 有 助 于 做 出 正确 的 选择 。 





数据 存储 选项 


CREATE TABLE 的 WITH 子 句 用 于 设置 表 的 存储 选项 ; 


create table tl (a int) with 
(appendonly=true, 
blocksize=8192, 
orientation=row, 
compresstype=zlib, 
compresslevel=1, 
fillfactor-50, 
oids-false); 


除了 在 表 级 别 指定 存储 选项 ，HAWQ 还 支持 在 一 个 特定 分 区 或 子 分 区 上 设置 存储 选项 。 
以 下 语句 在 特定 子 分 区 上 使 用 WITH 子 句 ， 指 定 对 应 分 区 的 存储 属性 。 

create table sales 

(id int, year int, month int, day int,region text) 

distributed by (id) 

partition by range (year) 

subpartition by range (month) 

subpartition template ( 

start (1) end (13) every (1), 

default subpartition other months ) 

subpartition by list (region) 

subpartition template ( 


subpartition usa values ('usa') with 
(appendonly=true, 
blocksize=8192, 
orientation=row, 
compresstype=zlib, 
compresslevel=1, 
fillfactor-50, 
oids-false), 
subpartition europe values ('europe'), 
subpartition asia values ('asia'), 
default subpartition other regions) 
( start (2002) end (2010) every (1), 
default partition outlying years); 


下 面 说 明 HAWQ 所 支持 的 存储 选项 
1. APPENDONLY 


指示 是 否 只 追加 数据 。 因 为 目前 HDFS 文件 中 的 数据 只 能 追加 ， 不 允许 修改 或 删除 ， 所 


以 该 选项 只 能 设置 为 TRUE， 和 否则 会 报错 : 


dbl=# create table tl(a int) with (appendonly=true) ; 

CREATE TABLE 

dbl=# create table t2(a int) with (appendonly=false) ; 

ERROR: tablespace "dfs_default" does not support heap relation 


2. BLOCKSIZE 


设置 表 中 每 个 数据 块 的 字 节 数 ， 值 在 8192 ~ 2097152 之 间 ， 而 且 必须 是 8192 的 倍数 ， 默 


认 值 为 32768。 该 属性 必须 与 appendonly-true 一 起 使 用 ， 并 且 只 支持 行 存储 模型 。 


dbl=# create table tl(a int) with (blocksize=8192) ; 


ERROR: invalid option 'blocksize' for base relation. Only valid for Append Only 


relations 


dbl=# create table tl(a int) with (appendonly-true,blocksize-8192); 


CREATE TABLE 
dbl=# create table t2(a int) with 

(appendonly=true, blocksize=8192, orientation=parquet) ; 
ERROR: invalid option 'blocksize' for parquet table 
dbl=# create table t2(a int) with 

(appendonly=true, blocksize=8192, orientation=row) ; 
CREATE TABLE 


3. BUCKETNUM 


设置 一 个 哈 希 分 布 表 使 用 的 哈 希 桶 数 ， 有 效 值 为 大 于 0 的 整数 ， 并 且 不 要 大 于 


default hash table bucket number 配置 参数 。 默 认 值 为 “Segment 节点 数 * 6”。 
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推荐 在 





创建 
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哈 希 分 布 表 时 显 式 指定 此 值 。 该 属性 在 建 表 时 指定 ， 表 创建 以 后 不 能 修改 bucketnum 的 值 。 


dbl=# create table tl(a int) with (bucketnum-1) distributed by (a); 
CREATE TABLE 


4. ORIENTATION 

指定 数据 存储 模型 ， 有 效 值 为 row CARVE) All parquet， 分 别 指 的 是 面向 行 和 列 的 存储 
格式 。 此 选项 只 能 与 appendonly=true 一 起 使 用 。 

db1=# create table tl(a int) with (orientation=parquet) 7 

ERROR: invalid option "orientation" for base relation. Only valid for Append 
Only relations 


dbl=# create table tl(a int) with (orientation=parquet, appendonly=true) ; 
CREATE TABLE 


老 版 本 的 HAWQ 还 支持 一 种 名 为 column 的 格式 ,但 在 2.1.1 版 本 中 已 经 过 时 而 不 再 支持 ， 
应 该 用 parquet 存储 格式 代替 column 格式 。 


db1=# create table tl(a int) with (orientation=column, appendonly=true) ; 
ERROR: Column oriented tables are deprecated. Not support it any more. 


row 格式 对 于 全 表 扫 描 类 型 的 读 操作 效率 很 高 。 适 合 行 存储 的 情况 主要 有 频繁 插入 ， 
SELECT 或 WHERE 子 句 中 包含 表 所 有 列 或 大 部 分 列 ， 并 且 一 行 中 所 有 列 的 总 长 度 相对 较 小 
时 ， 这 些 是 典型 的 OLTP 应 用 特点 。 而 parquet 面向 列 的 格式 对 于 大 型 查询 更 高 效 ， 适 合 数据 
仓库 应 用 。 应 该 根据 实际 的 数据 和 查询 评估 性 能 ， 选 择 最 适当 的 存储 类 型 。row 与 parquet 之 
间 的 格式 转换 工作 由 用 户 的 应 用 程序 完成 '， HAWQ 不 会 进行 这 种 转换 。 

5. COMPRESSTYPE 

指定 使 用 的 压缩 算法 ， 有 效 值 为 ZLIB、SNAPPY 或 GZIP. S3 (ii ZLIB 的 压缩 率 更 高 但 
速度 更 慢 。parquet 表 仅 支持 SNAPPY 和 GZIP。 该 选项 只 能 与 appendonly=true 一 起 使 用 。 

dbl=# create table tl(a int) with (compresstype-zlib); 

ERROR: invalid option 'compresstype' for base relation. Only valid for Append 
Only relations 

dbl=# create table tl(a int) with (compresstype=zlib, appendonly=true) ; 

CREATE TABLE 

dbl=# create table t2(a int) with 
(compresstype=zlib, appendonly=true, orientation=parquet) ; 

ERROR: parquet table doesn't support compress type: 'zlib' 

db1=# create table t2(a int) with 


(compresstype=snappy, appendonly=true, orientation=parquet) ; 
CREATE TABLE 


6. COMPRESSLEVEL 
有 效 值 为 1 ~ 9, 数值 越 大 压缩 率 越 高 。 如 果 不 指定 , 默认 值 为 1 。 该 选项 只 对 zlib 和 gzip 
有 效 ， 并 且 只 能 与 appendonly=true 一 起 使 用 。 
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dbl-£ create table tl(a int) with (compresstype=snappy, compresslevel=1) ; 

ERROR: invalid option 'compresslevel' for compresstype 'snappy'. 

dbl-f create table tl(a int) with (compresslevel=1) ; 

ERROR: invalid option 'compresslevel' for base relation. Only valid for Append 
Only relations 

db1=# create table tl(a int) with (compresslevel-1,appendonly-true); 

CREATE TABLE 


7. OIDS 

默认 值 为 FALSE， 表 示 不 给 行 赋予 对 象 标识 符 。 建 议 在 创建 表 时 不 要 启用 OIDS。 首 先 ， 
通常 OIDS 对 用 户 应 用 没有 用 处 。 再 者 ， 典 型 HAWQ 系统 中 的 表 行 数 都 很 大 ， 如 果 为 每 行 赋 
予 一 个 32 位 的 计数 器 ， 不 但 占用 空间 ， 而 且 可 能 给 HAWQ 系统 的 目录 表 造 成 问题 。 最 后 ， 
每 行 节省 4 字 节 存储 空间 也 能 带 来 一 定 的 查询 性 能 提升 。 

8. FILLFACTOR 

该 选项 控制 插入 数据 时 页 存储 空间 的 使 用 率 ， 作 用 类 似 于 Oracle 的 PCTFREE， 为 后 续 的 
行 更 新 预 留 空间 。 取 值 范围 是 10 ~ 100， 默 认 值 为 100， 即 不 为 更 新 保留 空间 。HAWQ 表 不 支 
持 UPDATE 和 DELETE 操作 ， 故 保持 默认 值 即 可 。 该 选项 对 parquet 表 无 效 。 


dbl=# create table tl(a int) with (fillfactor-100,orientation-parquet); 

ERROR: invalid option "orientation" for base relation. Only valid for Append 
Only relations 

dbl=# create table tl(a int) with (fillfactor=100); 

CREATE TABLE 


9. PAGESIZE 55 ROWGROUPSIZE 


€  PAGESIZE: 描述 parquet 文件 中 每 一 列 对 应 的 page 大 小 ， 可 配置 范围 为 [1IKB,1GB)， 
默认 为 IMB. 

© ROWGROUPSIZE: 描述 parquet 文件 中 row group 的 大 小 ,可 配置 范围 为 [1KB,1GB), 
默认 为 8MB. 


这 两 个 选项 只 对 parquet 表 有 效 ， 并 且 只 能 与 appendonly=true 一 起 使 用 。PAGESIZE 的 值 
应 该 小 于 ROWGROUPSIZE， 因 为 行 组 包含 页 的 元 信息 。 


dbl=# create table tl(a int) with 
(pagesize=1024, rowgroupsize=1024, orientation=parquet) ; 

ERROR: row group size for parquet table must be larger than pagesize. Got 
rowgroupsize: 1024, pagesize 1024 

dbl=# create table tl(a int) with 
(pagesize=1024, rowgroupsize=8096, orientation=parquet) ; 

ERROR: invalid option "orientation" for base relation. Only valid for Append 
Only relations 

dbi-£ create table tl(a int) with 
(pagesize=1024, rowgroupsize=8096, orientation=row) ; 

ERROR: invalid option 'pagesize' for non-parquet table 

dbl=# create table tl(a int) with 
(pagesize=1024, rowgroupsize=8096, orientation=parquet, appendonly=true) ; 

CREATE TABLE 
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6.2 数据 分 布 策略 


必须 要 指出 , 这 里 所 说 的 数据 分 布 策略 并 不 直接 决定 数据 的 物理 存储 位 置 , 数据 块 的 存储 
位 置 是 由 HDFS 决定 的 .这 里 的 数据 分 布 策略 概念 是 从 Greenplum 继承 而 来 ,存储 移植 到 HDFS 
上 后 ， 数 据 分 布 决定 了 HDFS 上 数据 文件 的 生成 规则 ， 以 及 在 此 基础 上 的 资源 分 配 策略 。 


6.2.1 数据 分 布 策略 概述 


所 有 的 HAWQ 表 ( 除 gpfdist 外 部 表 ) 都 是 分 布 存储 在 HDFS 上 的 。HAWQ 支持 两 种 数 
据 分 布 策略 ， 即 随机 与 哈 希 。 在 创建 表 时 ，DISTRIBUTED 子 句 声明 HAWQ 的 数据 分 布 策略 。 
如 果 没有 指定 DISTRIBUTED 子 句 ， 则 HAWQ 默认 使 用 随机 分 布 。 当 使 用 哈 希 分 布 时 ， 
bucketnum 属性 设置 哈 希 桶 的 数量 。 几 何 数据 类 型 (Geometric Types) 或 用 户 定义 数据 类 型 的 
列 不 能 作为 HAWQ 的 哈 希 分 布 键 列 。 哈 希 桶 数 影 响 处 理 查询 时 使 用 的 虚拟 段 的 数量 。 

默认 哈 希 分 布 表 使 用 的 哈 希 桶 数 由 default hash table bucket number 服务 器 配置 参数 的 
值 所 指定 。 可 以 在 会 话 级 或 使 用 建 表 DDL 语句 中 的 bucketnum 存储 参数 覆盖 默认 值 。 

随机 分 布 相对 于 哈 希 分 布 有 一 些 益 处 。 例 如 ， 集 群 扩容 后 ，HAWQ 的 弹性 查询 特性 ， 使 
得 在 操作 随机 分 布 表 时 能 够 自动 使 用 更 多 的 资源 ， 而 不 需要 重新 分 布 数据 。 重新 分 布 大 表 数据 
时 ,资源 与 时 间 消 耗 都 非常 大 。 而 且 ， 随机 分 布 表 具有 更 好 的 数据 本 地 化 ， 这 尤其 表现 在 底层 
HDFS 因为 某 个 数据 节点 失效 而 执行 rebalance 操作 重新 分 布 数据 后 。 在 一 个 大 规模 Hadoop 集 
群 中 ， 增 删 数 据 节点 后 rebalance 的 情况 很 常见 。 

然而 ， 哈 希 分 布 表 可 能 比 随机 分 布 表 快 。 在 HAWQ 的 TPCH 测试 中 ， 哈 希 分 布 表 在 很 多 
查询 上 具有 更 好 的 性 能 。 图 6-1 是 HAWQ 提供 的 一 个 数据 分 布 性 能 对 比 图 ， 其 中 CO 表示 列 
存储 格式 ，AO 表示 行 存 储 格 式 。 
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6-1 随机 与 哈 希 数据 分 布 的 性 能 对 比 


HAWQ 的 文档 中 并 没有 说 明 图 6-1 中 具体 的 测试 环境 ， 比 如 数据 量 和 Segment 节点 数 是 
多 少 ，CPU 或 内 存 等 资源 情况 ，default_hash_table_bucket number. hawq rm nvseg perquery - 


103 


perseg limit, hawq rm nvseg perquery limit 等 参数 设置 的 是 多 少 ， 具 体 查 询 语 句 是 什么 ， 等 
等 ， 因 此 这 个 测试 的 结果 也 许 并 不 适用 于 普遍 情况 。 

HAWQ 的 运行 时 弹性 查询 是 以 虚拟 段 为 基础 的 ， 而 虚拟 段 是 基于 查询 成 本 按 需 分 配 的 。 
每 个 节点 使 用 一 个 物理 段 和 一 组 动态 分 配 的 虚拟 段 。 通常 , 为 查询 分 配 的 虚拟 段 越 多 , 查询 执 
行 得 越 快 。 可 以 通过 设置 default hash table bucket number 和 hawq rm nvseg perquery limit 
参数 , 控制 一 个 查询 使 用 的 虚拟 段 数量 , 从 而 调整 性 能 。 如 果 default_hash_table_bucket_number 
的 值 改变 了 ， 哈 希 分 布 表 的 数据 必须 重新 分 布 ， 这 可 能 是 一 步 成 本 很 高 的 操作 。 因 此 ， 如 果 需 
要 大 量 的 虚拟 段 ， 最 好 在 建 表 前 预先 设置 好 default_hash_table_bucket_number。 集 群 扩容 后 ， 
可 能 需要 调整 default hash table bucket number 的 值 。 但 要 注意 ， 该 值 不 要 超过 
hawq rm nvseg perquery limit 参数 的 值 。 

X 6-1 是 HAWQ 给 出 的 Segment 节点 数量 与 default hash table bucket number 值 的 对 应 
关系 。 不 推荐 将 该 参数 设置 为 大 于 1000 的 值 。 


表 6-1 Segment 节点 数 与 default_hash_table_bucket_number 参数 的 对 应 关系 








节点 数 default_hash_table_bucket_number 
<=85 6 * #nodes 

> 85 and <= 102 5 * #nodes 

> 102 and <= 128 4 * #nodes 

> 128 and <= 170 3 * #nodes 

> 170 and <= 256 2 * #nodes 

> 256 and <= 512 1 * #nodes 

>512 512 








6.2.2 选择 数据 分 布 策略 
在 选择 分 布 策略 时 ， 应 该 考虑 具体 数据 和 查询 的 情况 ， 包 括 以 下 几 点 : 


@ 平均 分 布 数据 。 为 了 达到 更 好 的 性 能 ， 所 有 Segment 应 该 包含 相似 数据 量 。 如 果 数 据 
不 平衡 或 存在 “尖峰 ”, 拥有 更 多 数据 的 Segment 工作 负载 会 比 其 他 Segment 高 很 多 。 

€ ”本 地 和 分 布 式 操作 。 本 地 操作 比分 布 式 操作 更 快 . 查询 中 有 连接 、 排序 或 聚合 等 操作 ， 
如 果 能 够 在 一 个 Segment 上 完成 , 那么 这 种 本 地 处 理 查 询 是 最 快 的 。 当 多 个 表 共 享 一 
个 公共 的 哈 希 分 布 键 , 该 列 上 的 连接 或 排序 操作 是 在 本 地 进行 的 .对 于 随机 分 布 策略 ， 
是 否 本 地 连接 是 不 可 控 的 。 

€ ”平均 处 理 查询 。 为 了 获得 更 好 的 性 能 ， 所 有 Segment 应 该 处 理 基 本 等 量 的 查询 工作 。 
如 果 表 的 数据 分 布 策略 和 查询 条 件 谓词 匹配 得 不 好 ， 查 询 负 载 可 能 成 为 “尖峰 ”。 例 
如 ,假设 有 一 个 销售 事务 表 ， 以 公司 名 称 列 作为 分 布 键 分 布 数据 。 如 果 查 询 中 的 一 个 
谓词 引用 了 单一 的 分 布 键 , 则 查询 可 能 只 在 一 个 Segment 上 进行 处 理 。 而 如 果 查 询 谓 
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词 通常 以 公司 名 称 外 的 其 他 条 件 选择 数据 ， 可 能 所 有 Segment 共同 处 理 查 询 。 
HAWQ 利用 运行 时 动态 并 行 查询 ， 这 能 显著 提高 查询 性 能 。 性 能 主要 依赖 于 以 下 因素 : 


随机 分 布 表 的 大 小 。 

哈 希 分 布 表 的 CREATE TABLE DDL 中 指定 的 bucketnum 存储 参数 。 
数据 本 地 化 情况 。 

default_hash_table_bucket_number. 

hawq rm nvseg perquery limit. 


对 随机 分 布 表 的 查询 资源 分 配 与 表 的 数据 量 有 关 ， 通 常 为 每 个 HDFS 块 分 配 一 个 虚拟 段 ， 
其 结果 是 查询 大 表 可 能 使 用 大 量 的 资源 。 对 于 大 的 哈 希 分 布 表 , 为 了 在 不 同 Segment 节点 上 达 
到 最 好 的 负载 均衡 ，bucketnum 应 设置 成 Segment 节点 数量 的 倍数 。 运 行 时 弹性 查询 将 试图 找 
到 处 理 节 点 上 最 优 的 桶 数量 。 大 表 需 要 更 多 的 虚拟 段 ， 因 此 需要 设置 更 大 的 bucketnum。 
default hash table bucket number 是 查询 一 个 哈 希 分 布 表 时 使 用 的 默认 哈 希 桶 数 。 由 于 资源 是 
动态 分 配 的 ， 当 查询 实际 执行 时 , 分 配 的 虚拟 段 数量 可 能 与 该 值 不 同 , 但 执行 该 查询 虚拟 段 的 
总 数 永远 不 会 超过 hawq_rm_nvseg_perquery_limit 的 值 。 

对 于 任何 一 个 特定 的 查询 ， 前 四 个 因素 已 经 是 固定 值 ， 只 有 最 后 一 个 配置 参数 
hawq rm nvseg perquery limit 可 以 被 用 于 调整 查询 执行 的 性 能 。hawq_rm_nvseg_perquery_ 
limit 指定 集群 范围 内 ， 一 个 查询 语句 在 执行 时 可 用 的 最 大 虚拟 段 数量 ,默认 值 为 512， 取 值 范 
围 是 1~ 65535。 

除 hawq_rm_nvseg_perquery_limit 参数 外 , hawq_rm_nvseg_perquery_perseg_limit 也 控制 执 
行 一 个 查询 使 用 的 虚拟 段 数量 。 该 参数 指示 一 个 Segment 在 执行 一 个 查询 时 可 以 使 用 的 最 大 虚 
拟 段 数 ， 默 认 值 为 6， 取 值 范围 是 1 ~ 65535。 它 影响 随机 分 布 表 和 外 部 表 ， 但 不 影响 哈 希 分 
fiK. Wh hawq_rm_nvseg_perquery_perseg_limit 的 值 可 能 提高 并 发 查询 数量 ， 增 加 它 的 值 可 
能 提升 单个 查询 执行 的 并 行 度 。 对 于 某 些 查 询 ， 如 果 已 经 达到 硬件 限制 , 提升 并 行 度 并 不 会 提 
高 性 能 , 况且 数据 仓库 应 用 的 并 发 量 通常 也 不 会 很 高 。 因 此 ,在 绝 大 多 数 部 署 环境 中 ， 不 应 该 
修改 此 参数 的 默认 值 。 

修改 服务 器 配置 参数 最 简便 的 方法 是 使 用 Ambari 的 Web 界面 交互 式 设置 ,如 图 6-2 所 示 。 
大 多 数 情况 下 ，HAWQ 的 运行 时 弹性 查询 将 动态 分 配 虚拟 段 以 优化 性 能 ， 因 此 通常 不 需要 对 
相关 参数 做 进一步 的 调 优 。 
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Resource Management 
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图 6-2 使 用 Ambari 调整 HAWQ 虚拟 段 资源 相关 参数 


下 面 用 一 个 例子 说 明 两 种 数据 分 布 策略 。 建 立 三 个 表 ，t1 使 用 单列 哈 希 分 布 ， 世 使 用 随 
机 分 布 ，t3 使 用 多 列 哈 希 分 布 。 


dbl=# create table tl (a int) distributed by (a); 

CREATE TABLE 

db1=# create table t2 (a int) distributed randomly; 

CREATE TABLE 

dbl=# create table t3 (a int,b int,c int) distributed by (b,c); 
CREATE TABLE 


下 面 的 语句 能 查询 表 的 分 布 键 列 。 
dbl=# select c.relname, sub.attname 
db1-# from pg namespace n 


dbl-# join pg class c on n.oid = c.relnamespace 
dbi-# left join (select p.attrelid, p.attname 


db1 (# from pg_attribute p 

db1 (# join (select localoid, unnest(attrnums) as attnum 

db1 (# from gp_distribution_policy) as g on g.localoid = p.attrelid 
dbl (# and g.attnum = p.attnum) as sub on c.oid = sub.attrelid 


dbl-# where n.nspname = 'public' 

db1-# and c.relname in ('tl', 't2', 't3') 
db1-# and c.relkind = 'r'; 

relname | attname 
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t3 lc 
£3 | b 
(4 rows) 


前 面 已 经 提 到 哈 希 分 布 表 中 桶 的 概念 。 从 根本 上 说 ， 每 个 哈 希 桶 对 应 一 个 HDFS 文件 。 


在 数据 库 初始 化 时 ，default_hash_table_bucket_number 参数 得 到 设置 ， 默 认 值 按 表 6-1 所 示 的 
公式 计算 得 到 。 我 们 的 实验 环境 中 有 4 个 Segment 节点 , default_hash_table_bucket_number=24。 
现在 表 中 没有 数据 ， 表 目录 下 是 空 的 。 


应 


db1=# select c.relname, d.dat2tablespace tablespace id, d.oid database id, 
db1-# c.relfilenode table id 

dbl-# from pg database d, pg class c, pg namespace n 
db1-# where c.relnamespace = n.oid 

db1-# and d.datname = current database() 

db1-# and n.nspname = 'public' 

db1-# and c.relname in (tl, 't2'); 

relname | tablespace id | database id | table id 
-T-------- 4---------------4-------------4---------- 

ical | 16385 | 25270 | 156897 

t2 | 16385 | 25270 | 156902 

(2 rows) 


[gpadmin@hdp3 ~]$ hdfs dfs -ls /hawq_data/16385/25270/156897 
[gpadmin@hdp3 ~]$ hdfs dfs -ls /hawq_data/16385/25270/156902 
[gpadmin@hdp3 ~]$ 


向 表 中 插入 数据 后 ， 哈 希 分 布 表 t 对 应 的 HDFS 目录 下 有 24 个 数据 文件 (每 个 哈 希 桶 对 
-个 文件 ) ， 而 随机 分 布 表 世 只 有 一 个 数据 文件 。 


db1=# insert into t1 values (1), (2), (3); 
INSERT 0 3 
dbl=# insert into t2 values (1), (2), (3); 
INSERT 0 3 


[gpadmin@hdp3 ~]$ hdfs dfs -ls /hawq_data/16385/25270/156897 
Found 24 items 
-IW------ 3 gpadmin gpadmin 0 2017-04-01 14:40 /hawq_data/16385/25270/156897/1 


-IW------ 3 gpadmin gpadmin 0 2017-04-01 14:40 /hawq_data/16385/25270/156897/9 
[gpadmin@hdp3 ~]$ hdfs dfs -ls /hawq_data/16385/25270/156902 

Found 1 items 

Se 3 gpadmin gpadmin 48 2017-04-01 14:40 /hawq_data/16385/25270/156902/1 
[gpadmin@hdp3 ~]$ 


表 一 旦 建立 ， 哈 希 桶 数 就 是 固定 不 变 且 不 能 修改 的 。 查 询 tl 表 时 ， 将 分 配 24 个 虚拟 段 ， 
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每 个 文件 一 个 。 扩 展 集群 时 ， 查 询 tl 依然 分 配 24 个 虚拟 段 ， 但 是 这 些 虚拟 段 将 在 所 有 节点 中 
分 配 。 比 如 扩展 到 8 节点 ， 则 24 个 虚拟 段 被 分 配 到 8 个 节点 上 。 集 群 扩展 后 ， 应 该 根据 集群 
中 Segment 节点 的 数量 调整 default_hash table bucket number 的 值 ， 并 重建 tl 表 ， 这 样 它 才 
能 获得 正确 的 桶 数 。 

相对 于 哈 希 分 布 策略 ， 随 机 分 布 更 具有 弹性 。 可 以 看 到 ，t2 表 只 在 HDFS 上 创建 了 一 个 
数据 文件 。 查 询 o 表 分 配 的 虚拟 段 数量 ， 由 查询 优化 器 在 运行 时 决定 。 分 配 虚拟 段 数 与 表 的 
数据 量 有 关 ， 对 于 小 表 的 查询 可 能 只 分 配 一 个 虚拟 段 ， 而 大 表 可 能 每 个 主机 分 配 6 个 虚拟 段 。 
集群 扩展 时 , 不 需要 重新 分 布 数 据 , 如 果 需 要 数据 库 会 自动 增加 查询 一 个 随机 分 布 表 总 的 虚拟 
段 数量 。 

HAWQ 推荐 使 用 随机 分 布 ， 这 也 是 默认 的 分 布 策略 ， 原 因 如 下 : 

€ i HDFS. NameNode 只 需要 跟踪 更 少 的 文件 。 

e ”更 具 弹 性 。 集 群 增 减 节点 时 ， 不 需要 重新 分 配 数据 。 

€ ”可 以 通过 增加 hawq_rm_nvseg_perquery_perseg_limit 的 值 提高 查询 并 行 性 。 

@ ”优化 器 可 以 根据 查询 的 需求 动态 分 配 虚 拟 段 数量 。 





6.2.3 数据 分 布 用 法 


数据 分 布 的 原理 虽然 有 些 复杂 ,但 DISTRIBUTED 子 句 的 语法 却 很 简单 ，DISTRIBUTED 
BY (<column>, [ = ] ) 用 来 声明 一 列 或 多 列 ， 作 为 哈 希 分 布 表 的 分 布 键 。DISTRIBUTED 
RANDOMLY 显 式 指定 表 使 用 随机 分 布 策略 。 

dbl=# create table tl(id int) with (bucketnum=8) distributed by (id); 

CREATE TABLE 

dbl=# create table t2(id int) with (bucketnum-8) distributed randomly; 

CREATE TABLE 

dbl=# create table t3(id int) distributed randomly; 

CREATE TABLE 


TEROQ X, 虽然 指 定 了 bucketnum=8， 但 其 分 布 策 略 使 用 的 是 随机 分 布 ，bucketnum 参数 
不 起 作用 。 如 果 将 世 的 分 布 策 略 修改 为 哈 希 会 报错 : 


dbl=# Ad t2 

Append-Only Table "public.t2" 
Column | Type | Modifiers 
p €— 
id | integer | 


Compression Type: None 
Compression Level: 0 
Block Size: 32768 
Checksum: f 
Distributed randomly 
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dbi=# alter table t2 set distributed by (id); 


ERROR: bucketnum requires a numeric value 

查看 相关 系统 表 可 以 看 到 ， 虽 然 设 置 了 bucketnum-8, fH (2 的 哈 希 分 布 键 列 为 室 ， 也 说 
明 是 随机 分 布 表 。 同 时 看 到 无 论 采 用 哪 种 分 布 策略 ，bucketnum 的 默认 值 都 是 
default_hash_table_bucket_number 参数 值 ， 只 是 在 随机 分 布 表 中 不 起 作用 。 


db1=# select tl.*,t2.relname from gp distribution policy tl,pg class t2 
db1-# where tl.localoid-t2.oid; 


localoid | bucketnum | attrnums | relname 
---------- 4-----------4----------4--------- 
40651 | [o | t1 
40656 | | MEZ 
40661 | 240 | t3 
(3 rows) 


可 以 在 建 表 后 修改 它 的 分 布 策略 。 从 随机 分 布 修改 为 哈 希 分 布 , 或 者 更 改 一 个 哈 希 分 布 表 
的 分 布 键 时 ， 表 数据 会 自动 在 所 有 Segment 上 重新 分 布 。 而 从 哈 希 分 布 修改 为 随机 分 布 时 ， 不 
会 重新 分 布 数据 。 


db1=# create table t1 (a int); 
CREATE TABLE 

db1=# Md t1 

Append-Only Table "public.ti" 
Column | Type | Modifiers 
eee, fee ee ee 
a | integer | 
Compression Type: None 
Compression Level: 0 

Block Size: 32768 

Checksum: f 

Distributed randomly 


dbl=# alter table t1 set distributed by (a); 
ALTER TABLE 


dbi-£ Ad t1 
Append-Only Table "public.ti" 
Column | Type | Modifiers 





a | integer | 


Compression Type: None 
Compression Level: 0 
Block Size: 32768 
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Checksum: f 
Distributed by: (a) 


dbl-£ alter table tl set distributed randomly; 
ALTER TABLE 


为 了 重新 分 布 随机 分 布 表 的 数据 , 或 者 在 没有 改变 哈 希 分 布 策略 时 需要 重新 分 布 数据 , 使 
用 reorganize=true。 该 命令 使 用 当前 分 布 策略 在 所 有 Segment 中 重新 分 布 表 数 据 。 


dbl=# alter table tl set with (reorganize=true) 7 
ALTER TABLE 


这 里 有 一 个 需要 注意 的 细节 ， 如 果 在 建 表 时 显 式 指 定 了 bucketnum， 那 么 不 能 再 使 用 
ALTER TABLE 语句 修改 表 的 分 布 策略 ， 也 不 能 重新 分 布 数据 。 


db1=# create table tl(a int) with (bucketnum-10) distributed by (a); 
CREATE TABLE 

dbl=# alter table tl set distributed by (a); 

ERROR: bucketnum requires a numeric value 

dbl=# alter table tl set distributed randomly; 


ERROR: bucketnum requires a numeric value 











dbl=# alter table t1 set with (reorganize-true); 

ERROR: bucketnum requires a numeric value 

dbl=# alter table tl set with (bucketnum=10, reorganize=true) ; 
ERROR: option "bucketnum" not supported 


如 果 在 建 表 时 需要 使 用 不 同 于 默认 值 的 bucketnum ， 可 以 在 会 话 级 设置 
default hash table bucket number 系统 参数 , 这 样 以 后 就 可 以 使 用 ALTER TABLE 语句 修改 表 
的 分 布 策略 或 重新 组 织 表 数 据 了 。 


dbl=# set default hash table bucket number-10; 
SET 

dbl=# create table tl(a int) distributed by (a); 
CREATE TABLE 

dbl=# alter table t1 set distributed randomly; 
ALTER TABLE 

dbl-4 alter table tl set distributed by (a); 
ALTER TABLE 

db1=# alter table tl set with (reorganize-true); 
ALTER TABLE 


推荐 使 用 这 种 为 表 设 置 bucketnum 的 方法 ， 而 不 要 在 CREATE TABLE 中 显 式 指定 。 
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^ KBR 


HAWQ 提供 了 四 种 方式 从 一 个 原始 表 创 建新 表 ， 如 表 6-2 所 示 。 
表 6-2 ”从 原始 表 创 建新 表 的 四 种 方式 




















方式 语法 

INHERITS CREATE TABLE new table INHERITS (origintable) [WITH(bucketnum-x)] 
[DISTRIBUTED BY col] 

LIKE CREATE TABLE new table (LIKE origintable) [WITH(bucketnum-x)] 
[DISTRIBUTED BY col] 

AS CREATE TABLE new table [WITH(bucketnum-x)] AS SUBQUERY [DISTRIBUTED BY 
col] 

SELECT INTO | CREATE TABLE origintable [WITH(bucketnum-x)] [DISTRIBUTED BY col] SELECT * 
INTO new table FROM origintable 


1. INHERITS 

CREATE TABLE 语句 的 INHERITS 子 句 指定 一 个 或 多 个 父 表 ， 新 建 的 表 作 为 子 表 ， 自 动 
继承 父 表 的 所 有 列 。INHERITS 在 子 表 与 父 表 之 间 建 立 了 一 种 永久 性 关系 。 对 父 表 结构 的 修改 
会 传递 到 子 表 ， 默 认 时 ， 子 表 中 新 增 的 数据 也 会 在 包含 在 父 表 中 。 


dbl=# create table tl(a int); 
CREATE TABLE 
dbl-£ create table t2(b int); 
CREATE TABLE 
db1=# create table t3() inherits (t1,t2); 
NOTICE: Table has parent, setting distribution columns to match parent table 
CREATE TABLE 
db1=# \d t3 
Append-Only Table "public.t3" 
Column | Type | Modifiers 
二 dere cece 
a | integer 
b | integer 
Compression Type: None 
Compression Level: 0 
Block Size: 32768 
Checksum: f 
Inherits: tl, 
t2 
Distributed randomly 
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dbl=# alter table tl alter a type text; 
ALTER TABLE 

db1i=# Nd t3 

Append-Only Table "public.t3" 

Column | Type | Modifiers 


a | text l 
b | integer 
Compression Type: None 
Compression Level: 0 
Block Size: 32768 
Checksum: f 
Inherits: tl, 

t2 
Distributed randomly 


db1=# insert into t3 values ('a',1); 
INSERT 0 1 
dbl=# select * from tl; 


(1 row) 


db1=# select * from t2; 


(1 row) 


dbl=# drop table tl; 

NOTICE: append only table t3 depends on append only table t1 

ERROR: cannot drop append only table tl because other objects depend on it 
HINT: Use DROP ... CASCADE to drop the dependent objects too. 

dbl=# drop table tl cascade; 

NOTICE: drop cascades to append only table t3 


DROP TABLE 
dbi=# \dt 

List of relations 
Schema | Name | Type | Owner | Storage 
-------- 二 一 一 一 一 一 一 二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 
public | t2 | table | gpadmin | append only 
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(1 row) 
建立 分 区 表 时 不 能 使 用 INHERITS 子 句 。 


db1=# create table sales (id int, date date, amt decimal(10,2)) inherits (t1) 
db1-# distributed by (id) 

db1-# partition by range (date) 

db1-# ( partition jan08 start (date '2017-01-01') inclusive , 

dbl(# partition feb08 start (date '2017-02-01') inclusive 

db1 (# end (date '2018-01-01') exclusive ); 


error: cannot mix inheritance with partitioning 


如 果 存 在 多 个 父 表 中 同名 的 列 ， 当 列 的 数据 类 型 也 相同 时 ， 在 子 表 中 会 被 合并 为 一 个 列 ， 
否则 会 报错 。 


db1=# create table tl(a int); 

CREATE TABLE 

dbl-£ create table t2(a smallint); 

CREATE TABLE 

dbl-£ create table t3 () inherits (t1,t2); 

NOTICE: Table has parent, setting distribution columns to match parent table 





NOTICE: merging multiple inherited definitions of column "a" 

ERROR: inherited column "a" has a type conflict 

DETAIL: integer versus smallint 

dbl=# alter table t2 alter a type int; 

ALTER TABLE 

dbl-£ create table t3 () inherits (t1,t2); 

NOTICE: Table has parent, setting distribution columns to match parent table 
NOTICE: merging multiple inherited definitions of column "a" 

CREATE TABLE 


如 果 新 建 表 的 列 名 也 包含 在 父 表 中 ， 处 理 方式 类 似 ， 数 据 类 型 相同 则 合并 成 单列 ， 否 则 报错 。 


dbl=# create table tl(a int); 

CREATE TABLE 

dbl=# create table t3 (a text) inherits (tl); 

NOTICE: Table has parent, setting distribution columns to match parent table 
NOTICE: merging column "a" with inherited definition 

ERROR: column "a" has a type conflict 

DETAIL: integer versus text 

db1=# create table t3 (a int) inherits (t1); 

NOTICE: Table has parent, setting distribution columns to match parent table 
NOTICE: merging column "a" with inherited definition 

CREATE TABLE 


如 果 新 建 表 指定 了 一 个 列 的 默认 值 ， 该 默认 值 会 覆盖 从 父 表 继承 的 列 的 默认 值 。 
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dbi=# create table tl(a int default 1); 

CREATE TABLE 

db1=# create table t2(a int default 2) inherits (t1); 

NOTICE: Table has parent, setting distribution columns to match parent table 
NOTICE: merging column "a" with inherited definition 

CREATE TABLE 

db1-# \d t2 

Append-Only Table "public.t2" 

Column | Type | Modifiers 


a | integer | default 2 


子 表 会 自动 从 父 表 继承 分 布 策略 。 

dbl=# create table tl(a int) with (bucketnum=8) distributed by (a); 
CREATE TABLE 

dbl-£ create table t2 () inherits (t1); 


NOTICE: Table has parent, setting distribution columns to match parent table 
CREATE TABLE 


db1=# Md t2 
Append-Only Table "public.t2" 
Column | Type | Modifiers 





a | integer 


Compression Type: None 
Compression Level: 0 
Block Size: 32768 
Checksum: f 

Inherits: t1 
Distributed by: (a) 


dbl=# create table t3 () inherits (tl) with (bucketnum-8) distributed by (a); 

CREATE TABLE 

dbl=# create table t4 () inherits (tl) with (bucketnum-16) distributed by (a); 

ERROR: distribution policy for "t4" must be the same as that for "tl" 

dbl=# create table t4 (b int) inherits (tl) with (bucketnum-8) distributed by 
(5); 

ERROR: distribution policy for "t4" must be the same as that for "tl" 


2. LIKE 

LIKE 子 句 指示 新 建 表 从 另 一 个 已 经 存在 的 表 中 复制 所 有 列 的 名 称 、 数 据 类 型 、 非 空 约束 ， 
以 及 表 的 数据 分 布 策略 。 如 果 原 表 中 指定 了 bucketnum， 而 新 表 没 有 指定 ， 则 bucketnum 将 被 
复制 , 否则 使 用 新 表 的 bucketnum。 像 appendonly 这 样 的 存储 属性 , 或 者 分 区 结构 不 会 被 复制 
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默认 值 也 不 会 被 复制 , 新 表 中 所 有 列 的 默认 值 都 是 NULL。 5 INHERITS 不 同 , 新 表 与 原始 表 
是 完全 解 耦 的 。 


dbl=# create table t1 (a int) with (bucketnum-8) distributed by (a); 

CREATE TABLE 

db1=# create table t2 (like t1); 

NOTICE: Table doesn't have 'distributed by' clause, defaulting to distribution 
columns from LIKE table 

CREATE TABLE 

db1=# create table t3 (like t1) with (bucketnum-16) distributed by (a); 

CREATE TABLE 

dbl-£ select tl.*,t2.relname from gp distribution policy tl,pg class t2 

db1-# where t1.localoid=t2.oid and t2.relname in ('tl','t2','t3'); 


localoid | bucketnum | attrnums | relname 





43738 | 8 VL | ti 

43743 | 24 qp {1} I E2 

43748 | as cepe yeas L t3 
(3 rows) 


非 空 约束 总 是 被 复制 到 新 表 。 但 对 CHECK 约束 而 言 ， 只 有 指定 了 INCLUDING 
CONSTRAINTS 子 句 时 才 会 被 复制 到 新 表 。 


dbl=# create table tl (a int not null check (a > 0)); 

CREATE TABLE 

db1=# create table t2 (like t1); 

NOTICE: Table doesn't have 'distributed by' clause, defaulting to distribution 
columns from LIKE table 

CREATE TABLE 

dbl-£ Md t2 

Append-Only Table "public.t2" 

Column | Type | Modifiers 

PEE EC es esas fe eee es eer 

a | integer | not null 

Compression Type: None 

Compression Level: 0 

Block Size: 32768 

Checksum: f 

Distributed randomly 


db1=# create table t3 (like tl including constraints); 

NOTICE: Table doesn't have 'distributed by' clause, defaulting to distribution 
columns from LIKE table 

CREATE TABLE 
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dbi=# Nd t3 

Append-Only Table "public.t3" 

Column | Type | Modifiers 

€—— —— 

a | integer | not null 

Compression Type: None 

Compression Level: 0 

Block Size: 32768 

Checksum: f 

Check constraints: 
"tl a check" CHECK (a > 0) 

Distributed randomly 


LIKE 还 有 一 点 与 INHERITS 不 同 ， 它 不 会 合并 新 表 与 原 表 的 列 。 不 能 在 新 表 或 LIKE 子 
名 中 显 式 定义 列 。 

3. AS 

CREATE TABLE AS 是 很 多 数据 库 系统 都 提供 的 功能 。 它 用 一 个 SELECT 查询 命令 的 结 
果 集 创建 新 表 并 填充 数据 。 新 表 的 列 就 是 SELECT 返回 的 列 ， 也 可 以 显 式 定义 新 表 的 列 名 。 
新 表 的 存储 参数 和 分 布 策略 与 原 表 无 关 。 


dbl=# create table tl (a int); 
CREATE TABLE 

dbl=# insert into tl values (100); 
INSERT 0 1 

db1=# create table t2 (b) with -- 只 定义 列 名 ， 不 能 指定 列 的 数据 类 型 
db1-# (bucketnum=8, 

db1 (# appendonly=true, 

db1 (# blocksize=8192, 

db1 (# orientation=row, 

db1 (# compresstype=zlib, 

db1 (# compresslevel=1, 

db1 (# fillfactor=50, 

db1 (# oids=false) 

db1-# as select * from tl 

db1-# distributed by (b); 

SELECT 1 

db1=# select * from t2; 
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4. SELECT INTO 
SELECT INTO 在 功能 上 与 AS 类 似 ， 也 是 从 查询 结果 创建 新 表 ， 


表 的 存储 选项 和 分 布 策略 ， 而 总 是 使 用 默认 值 。 


db1=# create table t1 (a int) with 


db1-# (bucketnum=8, 

db1 (# appendonly-true, 
db1 (# blocksize=8192, 
db1 (# orientation=row, 
dbl (# compresstype=zlib, 
db1 (# compresslevel=1, 
db1 (# fillfactor=50, 

db1 (# oids=false) 


db1-# distributed by (a); 
CREATE TABLE 

dbl=# insert into tl values (1); 
INSERT 0 1 

dbl=# select * into t2 from tl; 
SELECT 1 

dbl=# \d t2 

Append-Only Table "public.t2" 
Column | Type | Modifiers 
el emm Seam eee, 
a | integer | 
Compression Type: None 
Compression Level: 0 

Block Size: 32768 

Checksum: f 

Distributed randomly 


db1=# select * from t2; 





小 结 


但 这 种 语法 不 


ab 


He. 


创建 HAWQ 表 时 ， 可 以 指定 数据 块 大 小 、 哈 希 桶 数 、 行 或 列 存储 格式 、 数 据 压缩 类 型 、 压 


缩 率 、 对 象 标识 符 、 页 大 小 、 页 空间 的 使 用 率 等 存储 选项 。HAWQ 的 DISTRIBUTED 子 句 为 表 指 
定 随机 或 哈 希 两 种 数据 分 布 策略 之 一 , 推荐 使 用 随机 分 布 , 这 也 是 默认 值 。 数据 分 布 决定 了 HDFS 
上 数据 文件 的 生成 规则 ， 以 及 在 此 基础 上 的 资源 分 配 策略 ， 但 并 不 直接 决定 数据 的 物理 存储 位 置 ， 
数据 块 的 存储 位 置 由 HDFS 决定 。 存 储 选项 与 数据 分 布 对 查询 性 能 有 很 大 影响 。HAWQ 提供 了 
INHERITS, LIKE. AS. SELECT INTO 四 种 方式 从 一 个 原始 表 创 建新 表 。 


T£ 








本 章 重点 讨论 HAWQ 的 资源 管理 器 与 资源 队列 。HAWQ 系统 构建 在 Hadoop 之 上 ， 能 充 
分 利用 Hadoop 集群 中 的 CPU 和 内 存 等 资源 。HAWQ 支持 两 种 资源 管理 方式 ， 独 立 与 全 局 。 
独立 方式 使 用 HAWQ 自 带 的 资源 管理 器 ， 假 设 自己 是 Hadoop 集群 中 的 唯一 应 用 而 尽 可 能 独 
占 可 用 资源 。 全 局 方式 将 HAWQ 作为 YARN 的 一 个 应 用 ， 由 YARN 统一 管理 和 分 配 集群 资 
源 。HAWQ 还 支持 定义 多 个 级 别 的 资源 队列 ， 通 过 它 协调 多 用 户 多 查询 的 并 发 资源 使 用 。 


J.T Hawg 资源 管理 概述 


HAWQ 使 用 多 种 机 制 管理 CPU、 内 存 、IUO、 文 件 句柄 等 系统 资源 ， 包 括 全 局 资源 管理 、 
资源 队列 、 强 制 资源 使 用 限额 等 。 


711 全 局 资源 管理 
Hadoop 通常 使 用 YARN 全 局 管理 资源 .YARN 是 一 个 通用 的 资源 管理 框架 ,为 MapReduce 
作业 或 其 他 配置 了 YARN 的 应 用 提供 资源 。 在 YARN 环境 中 ， 资 源 分 配 的 单位 被 称 为 容器 
(container) 。YARN 还 能 强制 限制 每 个 集群 节点 上 的 可 用 资源 。 图 7-1 展示 了 Hadoop YARN 
环境 下 的 HAWQ 集群 布局 。 








YARN 
Resource Manager 











7-1 YARN 环境 下 的 HAWQ 集群 架构 
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可 以 将 HAWQ 配置 为 一 个 在 YARN 中 注册 的 应 用 ， 执 行 查询 时 ，HAWQ 资源 管理 器 与 
YARN 通信 以 获取 所 需 的 资源 。 之 后 HAWQ Master 主机 上 的 资源 管理 器 负责 管理 和 分 配 这 些 
从 YARN 获得 的 资源 。 当 资源 使 用 完毕 后 返还 给 YARN. 


7.1.2. HAWQ 资源 队列 


资源 队列 是 HAWQ 系 统 中 并 发 管理 的 主要 工具 。 它 是 一 种 数据 库 对 象 , 可 以 使 用 CREATE 
RESOURCE QUEUE 语句 创建 。 资 源 队列 控制 可 以 并 发 执行 的 活跃 查询 数量 ， 以 及 为 每 种 查 
询 类 型 分 配 的 最 大 内 存 、CUP 数量 。 资 源 队 列 还 可 以 限制 单个 查询 消耗 的 资源 总 量 ， 避 免 个 
别 查 询 使 用 过 多 资源 而 影响 系统 的 整体 性 能 。HAWQ 内 部 基于 资源 队列 层次 系统 动态 管理 资 
源 。 资 源 队列 的 数据 结构 为 一 棵 nn 叉 树 ， 如 图 7-2 所 示 。 











7-2 HAWQ 资源 队列 树 


HAWQ 初始 化 后 有 一 个 根 队列 pg. root 和 一 个 默认 的 队列 pg. default. 如 果 使 用 YARN 模 
式 ，HAWQ 资源 管理 器 自动 从 全 局 资源 管理 器 获得 根 队列 资源 。 当 创建 了 一 个 新 的 资源 队列 
时 ， 必 须 指 定 其 父 队列 ， 以 这 种 方式 将 所 有 资源 队列 组 织 到 一 棵 树 中 。 

执行 查询 时 ， 进 行 编译 和 语义 分 析 后 ， 优 化 器 与 HAWQ 资源 管理 器 协调 查询 的 资源 使 用 
情况 , 得 到 基于 可 用 资源 的 优化 的 查询 计划 。 查询 分 发 器 将 每 个 查询 的 资源 分 配 与 查询 计划 一 
同 发 送 给 Segment。 这 样 ，Segment 上 的 查询 执行 器 (QE) 就 知道 当前 查询 的 资源 配额 ， 并 在 
整个 执行 过 程 中 使 用 这 些 资源 。 查 询 结束 或 终止 后 ， 资 源 返 还 给 HAWQ 资源 管理 器 。 

资源 队列 树 中 ， 只 有 叶子 队列 可 以 被 授予 角色 和 接受 查询 。 资 源 分 配 策略 如 下 : 

€ ”只 为 正在 运行 或 排队 的 查询 分 配 资源 队列 。 

e 多 个 查询 竞争 时 ，HAWQ 资源 管理 器 自动 依据 可 用 资源 情况 平衡 队列 间 的 资源 。 

© 在 一 个 资源 队列 中 , 如 果 有 多 个 查询 等 待 资源 , 最 终 资源 以 Best-Effort 方式 分 配给 每 

个 查询 。 


71.3 资源 管理 器 配置 原则 
配置 资源 管理 时 应 该 遵循 下 面 的 实践 原则 ， 保 证 高 效 的 资源 管理 和 最 佳 系统 性 能 : 
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€ Segment 节点 没有 相同 的 IP 35b hb, A EAHA B SAC IP 地 址 的 虚拟 网 卡 ， 这 可 
能 造成 某 些 HAWQ Segment 得 到 相同 的 IP 地 址 。 这 种 情况 下 ,资源 管理 器 的 容错 服 
务 组 件 只 能 认 到 相同 IP 中 的 一 个 Segment. 

€ 所 有 Segment 配 置 相同 的 资源 容量 配额 。 

© ”为 避免 资源 碎片 化 ， 配 置 Segment 资源 配额 为 所 有 虚拟 段 资源 限额 的 整数 倍 。 

© ”确保 有 足够 已 注册 的 Segment 响应 资源 请 求 。 如 果 失 效 的 Segment 超过 了 限额 ,资源 
请 求 被 拒绝 。 

€ Master 和 Segment 使 用 多 个 独立 的 大 磁盘 (2TB AVAL) 的 临时 目录 ， 如 /diskl/tmp 
/disk2/tmp， 保 证 写 临 时 文件 的 负载 均衡 。 对 于 给 定 查 询 ，HAWQ 为 每 个 虚拟 段 使 用 
一 个 单独 的 临时 目录 存储 溢出 文件 。 多 个 HAWQ 会 话 也 使 用 自己 的 临时 目录 避免 磁 
BEF. 如 果 临 时 目录 过 少 , 或 者 多 个 临时 目录 存储 在 同一 个 磁盘 上 , 会 增加 磁盘 竞 
争 或 磁盘 空间 用 尽 的 风险 。 

© 最 小 化 每 个 Segment th YARN 容器 数 ， 并 设置 空闲 资源 返还 YARN 的 超时 时 间 。 

€ yarn.scheduler.minimum-allocation-mb 参数 设置 成 可 以 被 1GB 整除 , 如 1024、512 等 。 





C ”配置 独立 资源 管理 器 
HAWQ 中 的 资源 管理 器 配置 主要 涉及 以 下 几 方 面 : 


@ ”确定 使 用 哪 种 资源 管理 模式 。HAWQ 支持 两 种 管理 模式 : 独立 模式 与 外 部 全 局 资源 
管理 器 模式 。 独 立 模式 也 叫 无 全 局 资源 管理 模式 。 在 该 模式 下 ，HAWQ 使 用 集群 节 
点 资源 时 ， 不 考虑 其 他 共存 的 应 用 ，HAWQ 假设 它 能 使 用 所 有 Segment 节点 的 资源 。 
对 于 专用 HAWQ 集群 ， 独 立 模式 是 可 选 的 方案 。 当 前 HAWQ 支持 YARN 作为 外 部 
全 局 资源 管理 器 。 该 模式 下 ，HAWQ 作为 一 个 YARN 应 用 ， 使 用 YARN 管理 的 集 
HER. 

© ”如 果 选 择 独立 资源 管理 模式 ， 需 要 决定 是 否 限制 分 配给 每 个 HAWQ Segment 使 用 的 
内 存 与 CPU。 

€ 如果 使 用 YARN 模式 ， 需 要 在 YARN 中 为 HAWQ 配置 资源 队列 , 还 要 在 HAWQ 中 
进行 与 YARN 相关 的 配置 。HAWQ 自动 注册 为 YARN 应 用 ， 使 用 YARN 中 配置 的 


资源 队列 。 
@ 在 HAWQ 中 创建 资源 队列 。 
1. 使 用 独立 模式 


为 了 配置 HAWQ 运行 独立 资源 管理 模式 ， 在 Master 节点 上 的 hawq-site.xml 文件 中 设置 
以 下 属性 : 


<property> 


120 





<name>hawq_global_rm_type</name> 
<value>none</value> 
</property> 
该 属性 为 全 局 设置 ， 需 要 重启 HAWQ 以 生效 。 当 然 也 可 以 使 用 Ambari, TE 
HAWQ 一 Configs 一 Resource Manager 进行 设置 ， 然 后 重启 HAWQ 服务 。 
hawq global rm type 参数 代表 HAWQ 全 局 资源 管理 类 型 ， 有 效 值 为 yarn 和 none。 设 置 
为 none 表示 由 HAWQ 的 资源 管理 器 自己 管理 资源 。 设置 为 yarn 意味 着 与 YARN 协调 使 用 资 
源 。 默 认 安装 时 使 用 的 是 独立 模式 。 
[gpadmin@hdp3 ~]$ hawq config -s hawq global rm type 
GUC : hawq_global_rm_type 


Value : none 
[gpadmin@hdp3 ~]$ 


2. 配置 Segment 资源 限制 


使 用 独立 模式 (hawq_global_rm_type=none) 时 ， 可 以 限制 每 个 HAWQ Segment 所 能 使 用 
的 资源 。 配 置 方法 是 在 每 个 Segment 节点 上 的 hawq-site.xml 文件 中 增加 以 下 参数 : 

<property> 

<name>hawq_rm_memory limit _perseg</name> 
<value>8GB</value> 

</property> 

<property> 

<name>hawq_rm_nvcore_limit_perseg</name> 
<value>4</value> 

</property> 

hawq rm memory limit perseg 参数 设置 独立 资源 管理 模式 下 , 每 个 HAWQ Segment 使 用 
的 最 大 内 存 数 。hawq_rm_nvcore_limit_perseg 参数 设置 每 个 HAWQ Segment 使 用 的 最 大 CPU 
虚拟 核 数 。 因 为 XML 的 配置 验证 ， 在 YARN 模式 下 也 需要 设置 这 些 属性 ， 即 使 该 模式 下 不 
会 使 用 这 些 参数 。 

所 有 Segment 都 配置 成 相同 的 值 ， 内 存 应 该 设置 成 1GB 的 倍数 。 并 且 为 了 降低 形成 资源 
碎片 的 可 能 性 ，hawq_rm_memory_limit_perseg 应 该 配置 成 所 有 虚拟 段 资 源 限额 (通过 资源 队 
列 的 VSEG RESOURCE QUOTA 属性 配置 ) 的 倍数 。 例 如 ，hawq_rm_memory_limit_perseg 
设置 成 15GB, 但 是 虚拟 段 资源 限额 设置 成 2GB， 那么 一 个 Segment 可 以 使 用 的 最 大 内 存 只 有 
14GB. 


3. 配置 查询 语句 的 资源 限额 


在 某 些 场景 下 , 可 能 需要 在 查询 语句 级 增加 资源 限额 。 以 下 配置 属性 允许 用 户 通 过 修改 相 
应 的 资源 队列 控制 限额 : 


€  hawq rm stmt vseg memory 
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€  hawq rm stmt nvseg 


hawq rm stmt vseg memory 定义 每 个 虚拟 段 的 内 存 限额 ，hawq_rm_stmt_nvseg 定义 下 个 
执行 的 查询 所 使 用 的 虚拟 段 个 数 ， 默 认 值 为 0， 表示 不 能 在 语句 级 设置 资源 限额 。 下 面 的 例子 
中 ， 执 行 下 个 查询 语句 时 ，HAWQ 的 资源 管理 器 将 分 配 10 个 虚拟 段 ， 每 个 虚拟 段 有 256MB 
的 内 存 限 额 。 

db1=# set hawq rm stmt vseg memory-'256mb'; 

SET 

db1=# set hawq rm stmt nvseg-10; 

SET 

db1=# create table t(i integer); 

CREATE TABLE 

dbl-£ insert into t values(1); 

INSERT 0 1 

db1=# 


HAWQ 动态 为 给 定 查询 语句 分 配 资源 ， 资 源 管理 器 只 是 分 配 Segment 的 资源 ， 而 不 会 为 
查询 保留 资源 。 并 且 , 语句 级 设置 的 虚拟 段 数 不 要 超过 全 局 配置 参数 hawq_rm_nvseg_perquery_ 
limit 的 值 。 

4. 配置 最 大 虚拟 段 数 

可 以 在 服务 器 级 限制 语句 执行 时 使 用 的 虚拟 段 数 ,这 能 防止 数据 装载 期 间 的 资源 瓶颈 或 过 
渡 消 耗资 源 带 来 的 性 能 问题 。 在 Hadoop 集群 中 ，NameNode 和 DataNode 可 以 并 发 打开 的 写 
文件 数 是 有 限制 的 ， 考 虑 下 面 的 场景 : 需要 向 有 P 个 分 区 的 表 导 入 数据 : 集群 中 有 六 个 节点 ， 
为 了 导入 数据 ， 每 个 节点 上 启动 了 下 个 虚拟 段 ， 则 每 个 DataNode 要 打开 PX V ^P cf, E 
启动 PXV 个 线程 。 如 果 P 和 的 数量 很 大 ，DataNode 将 成 为 瓶颈 。 而 在 NameNode 上 将 有 
FXN 个 连接 ， 如 果 节 点 很 多 ， 那 么 NameNode 可 能 成 为 瓶颈 。 

为 缓解 NameNode 的 负载 ， 使 用 下 面 的 服务 器 配置 参数 限制 天 的 大 小 ， 即 每 个 节点 启动 
的 最 大 虚拟 段 数 。 


©  hawq rm nvseg perquery limit: 在 服务 器 级 别 上 限制 执行 一 条 语句 可 以 使 用 的 最 大 
虚拟 段 数量 ， 默 认 值 为 512。default_hash_table_bucket_number 定义 的 哈 希 桶 数 不 能 
超过 hawq rm nvseg perquery limit. 

€ default hash table bucket number: 定义 哈 希 表 使 用 的 默认 桶 数 。 查 询 哈 希 表 时 ， 分 
配给 查询 的 虚拟 段 数 是 固定 的 ， 等 于 表 的 桶 数 。 一 般 集群 扩容 后 应 当 调 整 此 参数 。 

还 可 以 在 资源 队列 配置 中 限制 查询 使 用 的 虚拟 段 数量 。 全 局 配置 参数 是 “ 硬 限制 ”， 资 源 

队列 或 语句 级 别 的 限额 不 能 超过 服务 器 级 别 的 限额 。 
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7. 3 整合 YARN 


HAWQ 支持 YARN 作为 全 局 资源 管理 器 .在 YARN 管理 的 环境 中 , HAWQ 动态 向 YARN 
请 求 资源 容器 ,资源 使 用 完 返 还 YARN. 此 特性 让 HAWQ 有 效 利用 Hadoop 的 资源 管理 能 力 ， 
并 使 HAWQ 成 为 Hadoop 生态 圈 的 一 员 。 可 以 使 用 以 下 步骤 整合 YARN 5 HAWQ: 


CD Z$ YARN. 如 果 使 用 HDP 2.3 版 本 , 必须 设置 yarn.resourcemanager.system-metrics- 
publisher.enabled=false。 

(2) 配 置 YARN 使 用 CapacityScheduler 调度 器 , 并 为 HAWQ 保留 一 个 单独 的 应 用 队列 。 

G) 启用 YARN 的 高 可 用 特性 〈 可 选 ) 。 

(4) 配置 HAWQ 的 YARN 模式 。 

(5) 根据 需要 调整 HAWQ 的 资源 使 用 : 为 HAWQ 修改 相应 的 YARN 资源 队列 配额 ( 刷 
新 YARN 资源 队列 不 需要 重启 HAWQ) ; 通过 修改 HAWQ 资源 队列 进行 资源 消耗 的 细 粒 度 
控制 ， 其 他 配置 ， 如 设置 每 个 HAWQ Segment 的 最 小 YARN 容器 数 ， 或 修改 HAWQ 的 空闲 
资源 超时 时 间 等 。 

1. 配置 YARN 


查询 请 求 资源 时 ，HAWQ 资源 管理 器 与 YARN 资源 调度 器 协商 资源 分 配 。 查 询 执 行 完毕 
后 ，HAWQ 资源 管理 器 向 YARN 调度 器 返回 占用 的 资源 。 为 了 使 用 YARN， 最 好 为 HAWQ 
配置 独立 的 应 用 资源 队列 。YARN 为 特定 的 资源 调度 器 配置 资源 队列 ， 调 度 器 根据 资源 队列 
的 配置 为 应 用 分 配 资源 。 目 前 HAWQ 仅 支 持 YARN 的 Capacity 调度 器 。 

下 面 的 例子 说 明 如 何 使 用 Ambari 配置 CapacityScheduler 作为 YARN 的 调度 器 。 


(1) 登录 Ambari。 
(2) 选择 YARN 一 Configs — Advanced 一 Scheduler， 如 图 7-3 所 示 。 





~ Scheduler 


yarn.resourcemanager org.apache.hadoop.yarn.server.resourcemanager.schedulercapactyCapactySchedue| 2 © C 
Scheduler.class 


Capacity Scheduler 









n.scheduler capa. 
n.scheduler.capa 


1 


Advanced yarn-env 








7-3 在 Ambari 中 配置 CapacityScheduler 
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(3) 在 yarn.resourcemanager.scheduler.class 输入 框 中 输入 以 下 值 ， 该 属性 值 设置 YARN 
的 调度 器 为 Capacity: 


org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySc 
heduler 


(4) 在 Capacity Scheduler 输入 框 中 输入 以 下 内 容 : 


yarn.scheduler.capacity.maximum-am-resource-percent=0.2 
yarn.scheduler.capacity.maximum-applications=10000 
yarn.scheduler.capacity.node-locality-delay-40 
yarn.scheduler.capacity.root.acl administer queue-* 
yarn.scheduler.capacity.root.capacity-100 
yarn.scheduler.capacity.root.queues-mrquel,mrque2,hawqque 
yarn.scheduler.capacity.root.hawqque.capacity-20 
yarn.scheduler.capacity.root.hawqque.maximum-capacity-80 
yarn.scheduler.capacity.root.hawqque.state-RUNNING 
yarn.scheduler.capacity.root.hawqque.user-limit-factor-1 
yarn.scheduler.capacity.root.mrquel.capacity-30 
yarn.scheduler.capacity.root.mrquel.maximum-capacity-50 
yarn.scheduler.capacity.root.mrquel.state-RUNNING 
yarn.scheduler.capacity.root.mrquel.user-limit-factor-1 
yarn.scheduler.capacity.root.mrque2.capacity-50 
yarn.scheduler.capacity.root.mrque2.maximum-capacity-50 
yarn.scheduler.capacity.root.mrque2.state-RUNNING 
yarn.scheduler.capacity.root.mrque2.user-limit-factor-1 


默认 的 Capacity 调度 策略 只 有 一 个 名 为 default 的 资源 队列 。 以 上 属性 在 根 队列 下 设置 两 
个 MapReduce 队列 和 一 个 名 为 hawqque 的 HAWQ 专用 队列 ， 三 个 队列 并 存 ， 共 享 整个 集群 
资源 。 hawqque 队列 可 以 使 用 整个 集群 20% 到 80% 的 资源 。 K 7-1 说 明了 队列 配置 的 主要 属性 
及 其 含义 。 
表 7-1 YARN 配置 参数 


属性 名 称 描述 


集群 中 可 用 于 运行 application master 的 资源 比例 上 限 ， 通 常用 
ce-percent 于 限制 并 发 运行 的 应 用 程序 数目 。 示 例 中 设置 为 0.2， 即 20% 


yarn.scheduler.capacity.maximum-applicatio | 集群 中 所 有 队列 同 时 处 于 等 待 和 运行 状态 的 应 用 程序 数目 上 
ns 限 ， 这 是 一 个 强 限制 ,一 旦 集群 中 应 用 程序 数目 超过 该 上 限 ， 
后 续 提交 的 应 用 程序 将 被 拒绝 ， 默 认 值 为 10000 


yarn.scheduler.capacity.node-locality-delay 调度 器 尝试 调度 一 个 rack-local container 之 前 ， 最 多 跳 过 的 调 
度 机 会 。 默 认 值 为 40， 接 近 一 个 机 架 中 的 节点 数目 


yarn.scheduler.capacity.<queue_name>.queu | 定义 本 队列 下 的 资源 队列 , 即 资源 队列 树 中 某 节点 的 直接 下 级 
es 节点 





yarn.scheduler.capacity.maximum-am-resour 
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GER) 





属性 名 称 


描述 





yarn.scheduler.capacity.<queue_name>.capa 
city 


一 个 百分比 值 ， 表 示 队 列 占用 整个 集群 多 少 比例 的 资源 





yarn.scheduler.capacity.<queue_name>.maxi 
mum-capacity 


弹性 设置 ， 队 列 最 大 时 占用 多 少 比 例 的 资源 





yarn.scheduler.capacity.<queue_name>.state 


队列 状态 ， 可 以 是 RUNNING z& STOPPED 





yarn.scheduler.capacity.<queue_name>.user- 





limit-factor 








每 个 用 户 的 低 保 百 分 比 ， 比 如 设置 为 1， 则 表示 无 论 有 多 少 用 
户 在 跑 任务 ， 每 个 用 户 最 低 占用 不 少 于 1% 的 资源 


(5) 保存 配置 并 重启 YARN 服务 ， 之 后 可 以 在 YARN 资源 管理 器 的 用 户 界面 看 到 配置 


的 三 个 队列 ， 如 图 7-4 所 示 。 


(Ore aay) NEW,NEW_SAVING,SUBMITTED,ACCEP’ 


7 Cluster Cluster Metrics 


About Apps Apps Apps 


Nodes 


Applications 0 0 
Scheduler Metrics 


RUNNING 
EINISHED 
FAILED 
KILLED 








Scheduler Legend: Capacity 


+ Tools 

















Applications 
PCT (need TIT UIT SER Ret RSS CT ENTIS 
STR Feng Towing | Completas Ro | Used | Tot | Resened | Used" Total? Resetved 
o o oB 1668 oB o n o 
prann a aaa ey M E 
(memory) «memorySt2, v 





^ Used Used (over capacity) - Max Capacity 


图 7-4 YARN 中 的 资源 队列 


2. TE YARN 中 设置 Segment 资源 限制 


与 独立 资源 管理 模式 类 似 ， 也 可 以 通过 YARN 管理 HAWQ Segment 的 配额 。HAWQ HE 
荐 将 所 有 Segment 设置 成 相同 的 资源 配额 。 在 yarn-site.xml 文件 中 设置 如 下 属性 : 


<property> 


<name>yarn.nodemanager . resource .memory-mb</name> 


<value>4GB</value> 
</property> 
<property> 


<name>yarn.nodemanager. resource. cpu-vcores</name> 


<value>1</value> 
</property> 


或 者 使 用 Ambari 的 YARN 一 Configs > Settings 进行 配置 ，yarn.nodemanager.resource. 
memory-mb 和 yarn.nodemanager.resource.cpu-veores 的 设置 分 别 如 图 7-5、 图 7-6 所 示 。 
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Memory 
Node 


Memory allocated for all YARN containers on a node 








图 7-5 设置 一 个 节点 的 内 存 配额 


Number of virtual cores 








76 设置 一 个 节点 的 CPU 核 数 


€  yarnnodemanager.resource.memory-mb: 表示 该 节点 上 YARN 可 使 用 的 物理 内 存 总 量 ， 
默认 是 8192MB。 如 果 节点 的 内 存 资源 不 够 SGB， 则 需要 调 小 这 个 值 ，YARN 不 会 
智能 地 探测 节点 的 物理 内 存 总 量 。 

€  yam.nodemanager.resource.cpu-vcores: 表示 该 节点 上 YARN 可 使 用 的 虚拟 CPU 个 数 ， 
默认 是 8。 目 前 推荐 将 该 值 设置 为 与 物理 CPU 核 数 相同 。 如 果 节 点 的 CPU 核 数 不 够 
8 个 ， 则 需要 调 小 这 个 值 ，YARN 不 会 智能 地 探测 节点 的 物理 CPU 总 数 。 

与 独立 模式 一 样 ，HAWQ 推荐 每 核 内 存 数 是 1GB 的 倍数 ， 如 每 核 1GB, 2GB, 4GB 等 。 

为 了 减少 YARN 模式 下 产生 资源 碎片 的 可 能 ， 应 该 遵从 以 下 配置 原则 : 


€ yarn.nodemanagerresource.memory-mb 应 该 设置 为 虚拟 段 资源 限额 (在 HAWQ 资源 
队列 中 配置 ) 的 倍数 。 
© ”每 核 内 存 应 该 设置 为 yarn.scheduler.minimum-allocation-mb 的 倍数 。 
比如 YARN 中 的 配置 如 下 : 
yarn.scheduler.minimum-allocation-mb=1024 


yarn .nodemanager. resource .memory-mb=49152 


126 


yarn.nodemanager.resource.cpu-vcores-16 


HAWQ 计算 的 每 核 内 存 为 3GB (48GB/16) 。 由 于 yarn.scheduler.minimum-allocation-mb 
设置 是 1GB, 每 个 YARN 容器 内 存 为 1GB。 这 样 每 核 内 存 正 好 是 YARN 容器 的 3 fit 不 会 形 
成 资源 碎片 。 但 如 果 yarn.scheduler.minimum-allocation-mb 设置 为 4GB,， 则 每 个 YARN 容器 形 
IÈ 1GB (4GB-3GB) 的 内 存 碎 片 空 间 。 为 了 避免 这 种 情况 , 可 以 修改 yarn.nodemanager.resource. 
memory-mb Jj 64GB, 5k yarn.scheduler.minimum-allocation-mb 改 为 1GB。 注 意 ， 如 果 将 
yarn.scheduler.minimum-allocation-mb 设置 为 1GB 或 更 小 的 值 ， 该 值 应 该 能 被 1GB 整除 ， 如 
1024、512 等 。 


3. 启用 YARN 模式 


配置 完 YARN， 就 可 以 在 hawq-site.xml 文件 中 添加 如 下 属性 ， 将 YARN 启用 为 HAWQ 
的 全 局 资源 管理 器 。 


<property> 
<name>hawq_global_rm_type</name> 
<value>yarn</value> 


</property> 


或 者 使 用 Ambari 的 HAWQ 一 Configs 一 Settings 一 Resource Management 进行 配置 ， 如 
图 7-7 所 示 。 


Resource Management 


Resource Manager 


YARN 





图 7-7 使 用 Ambari 设置 HAWQ 的 资源 管理 器 


这 样 HAWQ 资源 管理 器 只 会 使 用 YARN 分 配 的 资源 。YARN 模式 的 HAWQ 需要 在 
hawq-site.xml 文件 中 配置 以 下 属性 : 


<property> 
<name>hawq_rm yarn address</name> 
<value>hdp2:8050</value> 

</property> 

<property> 
<name>hawq_rm_yarn_scheduler_address</name> 
<value>hdp2 : 8030</value> 

</property> 

<property> 
<name>hawq_rm_yarn_queue_name</name> 
<value>hawqque</value></property> 

<property> 
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<name>hawq_rm_yarn_app_name</name> 
<value>hawq</value> 
</property> 


或 者 使 用 Ambari 的 HAWQ 一 Configs — Advanced 一 Advanced hawq-site 进行 配置 ， 如 
图 7-8 所 示 。 








hawq_rm_yam_address ^ hdp2:8050 c 
hawg rm yam app. hawq oc 
name 

hawg m» yam queue hawqque o c 
name 

hawq rm yam hdp2:8030 c 


scheduler. address 





7-8 使 用 Ambari 设置 HAWQ 的 资源 管理 器 参数 
表 7-2 包含 了 相关 属性 的 描述 。 
表 7-2 HAWQ 中 的 YARN 资源 管理 器 参数 


属性 名 称 描述 


YARN 服务 器 的 主机 和 端口 号 ， 与 yarnsitexml 中 的 
yarn.resourcemanager.address 属性 相同 


YARN 调度 器 的 主机 和 端口 号 ， 与 yarn-sitexml 中 的 


yarn.resourcemanager.scheduler.address 属性 相同 
YARN 中 HAWQ 使 用 的 资源 队列 名 称 
YARN 中 HAWQ 使 用 的 应 用 名 称 





hawq rm yarn address 


hawq rm yarn scheduler address 


hawq rm yarn queue name 











hawq rm yarn app name 
4. FH YARN 协调 HAWQ 资源 


为 保证 资源 管理 的 效率 与 查询 性 能 , 应 该 做 适当 的 配置 , 协调 YARN 为 HAWQ 资源 管理 
器 分 配 资源 。 


(1) 调整 每 个 Segment 的 最 小 YARN 容器 数 

当 HAWQ 刚 注 册 到 YARN， 还 没有 工作 负载 时 ，HAWQ 不 需要 立即 获得 任何 资源 。 只 
有 在 HAWQ 接收 到 第 一 个 查询 请 求 时 ，HAWQ 资源 管理 器 才 开始 向 YARN 请 求 资源 。 为 保 
证 为 后 续 查 询 优 化 资源 分 配 ， 同 时 避免 与 YARN 协调 过 于 频繁 ， 可 以 调整 
hawq_rm_min_resource_perseg 参数 。 无 论 初始 查询 的 大 小 ， 每 个 HAWQ Segment 都 至 少 会 被 
分 配 指定 的 YARN 容器 数 。 该 参数 的 默认 值 为 2, 这 意味 着 即便 查询 所 需 的 资源 很 少 , HAWQ 
资源 管理 器 也 至 少 为 每 个 Segment 获得 两 个 YARN 容器 。 

此 属性 配置 不 能 超过 YARN 中 HAWQ 资源 队列 的 配额 。 例如 , 如 果 YARN 中 HAWQ 队 
列 的 配额 不 大 于 整个 集群 的 50%， 并 且 每 个 YARN 节点 的 最 大 内 存 与 虚拟 CPU 核 数 分 别 为 
64GB 和 16， 那 么 hawq_rm_min resource perseg 的 设置 不 能 大 于 8。 这 是 因为 HAWQ 资源 管 
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理 器 通过 虚拟 CPU 核 数 获得 YARN 资源 容器 。 


(2) 设置 YARN 资源 超时 
WA HAWQ 的 工作 负载 很 低 ，HAWQ 资源 管理 器 已 经 获得 的 YARN 资源 有 可 能 出 现 空 
闲 的 情况 。 可 以 调整 hawq_rm_resource_idle_timeout 参数 ， 让 HAWQ 资源 管理 器 更 快 或 更 慢 
地 向 YARN 返还 空闲 资源 。 假 设 资源 管理 器 获取 资源 的 过 程 会 造成 查询 延 时 。 为 了 让 HAWQ 
资源 管理 器 可 以 更 长 时 间 地 持 有 已 经 获得 的 资源 ， 以 备 后 面 的 查询 工作 使 用 ， 可 增加 
hawq_rm_resource_idle_timeout 的 值 。 该 参数 的 默认 值 为 300 秒 。 





了 .A 管理 资源 队列 


通过 定义 层次 化 的 资源 队列 , 系统 管理 员 能 够 根据 需要 均衡 分 配 系统 资源 。 资源 队列 是 使 
用 CREATE RESOURCE QUEUE 语句 创建 的 数据 库 对 象 ， 是 HAWQ 系统 中 管理 并 发 度 的 主 
要 工具 。 可 以 使 用 资源 队列 控制 并 发 执行 的 活跃 查询 数量 , 以 及 分 配给 每 种 查询 类 型 使 用 的 最 
大 内 存 与 CPU 数量 。 资 源 队 列 还 可 以 防止 某 些 查 询 因 消耗 太 多 系统 资源 ， 影 响 系 统 整体 性 能 
的 情况 。HAWQ 内 部 将 资源 队列 组 织 为 一 棵 如 图 7-2 所 示 的 n SURE. HAWQ 初始 化 后 ， 有 一 个 
名 为 pg root 的 根 队列 ， 根 下 有 一 个 名 为 pg_default 的 默认 队列 ， 在 图 7-2 中 用 灰色 节点 表示 。 


1. 设置 资源 队列 最 大 数 
可 以 配置 HAWQ 集群 中 允许 的 资源 队列 最 大 数量 ， 默 认 值 为 128， 值 域 范围 是 3 ~ 1024。 


[gpadmin@hdp3 ~]$ hawq config -s hawq rm nresqueue limit 
GUC : hawq rm nresqueue limit 

Value : 128 

[gpadmin@hdp3 ~]$ 


也 可 执行 以 下 psql 命令 检查 运行 时 的 参数 设置 : 


dbl=# show hawq rm nresqueue limit; 
hawq rm nresqueue limit 


(1 row) 


手动 编辑 hawq-site.xml 文件 或 使 用 Ambari 界面 配置 该 参数 , 新 值 在 HAWQ 重启 后 生效 。 
下 面 的 例子 将 最 大 资源 队列 数 设 置 成 50。 
<property> 
<name>hawq_rm_nresqueue_limit</name> 
<value>50</value> 
</property> 
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该 参数 不 能 在 服务 器 启动 后 动态 改变 : 


db1=# set hawq rm nresqueue limit-50; 

ERROR: attempted change of parameter "hawq rm nresqueue limit" ignored 
DETAIL: This parameter cannot be changed after server start. 

db1=# 


2. 资源 队列 维护 
只 有 管理 员 用 户 才能 运行 创建 、 修 改 、 删 除 等 维护 资源 队列 的 DDL 语句 。 


(1) 创建 资源 队列 

使 用 CREATE RESOURCE QUEUE 语句 创建 资源 队列 。 创 建 资源 队列 时 需要 指定 队列 的 
名 称 ` 父 队列 名 称 `.CPU 和 内 存 限制 等 ,还 可 限制 队列 中 的 活跃 语句 数量 。 下 面 的 语句 在 pg. root 
下 创建 一 个 名 为 myqueue 的 资源 队列 ， 限 制 活跃 查询 数 为 20， 内 存 和 CPU 核 数 最 多 为 集群 总 
量 的 10%: 

db1=# create resource queue myqueue with (parent-'pg root', 
active statements-20, 

db1(# memory limit cluster-10$, core limit cluster-10$); 

CREATE QUEUE 

db1=# 

-个 父 队列 下 所 有 直接 子 队列 的 资源 限制 总 和 不 能 超过 100%。 例 如 ， 默 认 的 pg default 
队列 的 memory_limit_cluster 和 core_limit cluster 为 50%, 刚 刚 建立 的 myqueue 两 者 限制 为 10%， 
两 个 队列 的 限制 总 和 是 60%， 此 时 无 法 再 在 pg_root 下 创建 限制 超过 40% 的 资源 队列 。 

dbl=# create resource queue myqueuel with (parent-'pg root', 
active statements-20, 

db1(# memory limit cluster-50$, core limit cluster-50$); 

ERROR: the value of core limit cluster and memory limit cluster exceeds parent 
queue's limit, wrong value - 50$ 

db1=# 


下 面 的 语句 在 pg root 下 创建 一 个 名 为 test queue. 1 的 资源 队列 , 内 存 和 CPU 核 数 最 多 为 
集群 总 量 的 40%， 并 指定 资源 过 度 使 用 因子 为 2: 

dbl=# create resource queue test queue 1 with (parent-'pg root', 

dbl (# memory limit cluster-30$, core limit cluster-30$, 
resource overcommit factor-2); 

CREATE QUEUE 

db1=# 

RESOURCE OVERCOMMIT FACTOR 是 一 个 可 选 属性 ， 定 义 有 多 少 资源 能 够 被 过 度 使 
用 ， 默 认 值 为 2.0， 最 小 值 为 1.0。 如 果 设 置 RESOURCE_OVERCOMMIT FACTOR 为 3.0， 
同时 将 MEMORY LIMIT CLUSTER 设置 为 30%, 那么 最 大 可 能 的 资源 分 配 为 90%(30%* 3)。 
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如 果 资 源 限 制 与 RESOURCE OVERCOMMIT FACTOR 相 乘 的 结果 值 大 于 10096, 采用 10096. 


(2) 修改 资源 队列 

使 用 ALTER RESOURCE QUEUE 语句 修改 资源 队列 。 该 语句 可 以 修改 队列 的 资源 限制 和 
活跃 语句 数 ， 但 不 能 改变 一 个 队列 的 父 队列 ， 创 建 资源 队列 时 的 约束 同样 适用 于 修改 语句 。 

可 以 在 队列 正在 被 使 用 时 进行 修改 ,所 有 队列 中 排队 的 资源 请 求 都 调整 为 基于 修改 后 的 队 
列 。 在 修改 队列 时 ， 排 队 的 资源 请 求 可 能 遇 到 某 些 冲 突 ， 如 可 能 发 生 资源 死 锁 ， 或 者 修改 后 的 
资源 限额 不 能 满足 排队 的 请 求 等 。 为 防止 冲突 ， 默 认 情况 下 HAWQ 会 取消 与 新 资源 队列 定义 
冲突 的 所 有 请 求 ， 该 行为 受 服务 器 配置 参数 hawq rm force alterqueue cancel queued request 
控制 ， 默 认 设置 是 on。 

[gpadmin@hdp3 ~]$ hawq config -s 


hawq rm force alterqueue cancel queued request 
GUC : hawq rm force alterqueue cancel queued request 





Value : on 

[gpadmin@hdp3 ~]$ 

该 参数 设置 为 off 时 ， 如 果 资 源 管 理 器 发 现 新 的 队列 定义 与 排队 请 求 发 生 冲 突 ， 则 取消 
ALTER RESOURCE QUEUE 中 指定 的 限制 。 

以 下 语句 修改 资源 队列 的 内 存 和 CPU 核 数 限制 : 

db1=# alter resource queue test queue 1 with 
(memory limit cluster-40$,core limit cluster-40$); 

ALTER QUEUE 

db1=# 

以 下 语句 将 资源 队列 的 最 大 活跃 语句 数 由 默认 的 20 改 为 50: 


db1=# alter resource queue test queue 1 with (active statements=50) ; 
ALTER QUEUE 
db1=# 
G) 删除 资源 队列 
使 用 DROP RESOURCE QUEUE 语句 删除 一 个 资源 队列 。 满 足以 下 条 件 的 资源 队列 才能 
被 删除 ， 并 且 不 能 删除 系统 资源 队列 pg_root 和 pg_default: 


e ”没有 查询 正在 使 用 该 队列 。 

@ 没有 子 队列 。 

e 没有 被 赋予 角色 。 

从 资源 队列 中 删除 角色 (角色 会 被 移 到 默认 的 pg_default 资源 队列 中 ) : 


dbl=# alter role wxy resource queue none; 
ALTER ROLE 
db1=# 
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删除 myqueue 资源 队列 : 


dbl=# drop resource queue myqueue; 
DROP QUEUE 
db1=# 


(4) 检查 现 有 资源 队列 
HAWQ 的 系统 表 pg_resqueue 保存 资源 队列 数据 。 下 面 的 查询 语句 显示 test_queue_1 的 相 
关 信 息 : 


dbl-£ Nx 
Expanded display is on. 
db1=# select rsqname, 


db1-# parentoid, 

db1-# activestats, 

db1-# memorylimit, 

db1-# corelimit, 

db1-# resovercommit, 

db1-# allocpolicy, 

db1-# vsegresourcequota, 
db1-# nvsegupperlimit, 
db1-# nvseglowerlimit, 
db1-# nvsegupperlimitperseg, 
db1-# nvseglowerlimitperseg 


db1-# from pg resqueue 
db1-# where rsqname-'test queue 1'; 


-[ RECORD 1 ]--------- +------------- 
rsqname | test queue 1 
parentoid | 9800 
activestats | 50 
memorylimit | 40$ 
corelimit | 40$ 
resovercommit i 之 
allocpolicy | even 
vsegresourcequota | mem:256mb 
nvsegupperlimit 

nvseglowerlimit | 0 


nvsegupperlimitperseg | 0 


o 


nvseglowerlimitperseg | 


db1=# 
也 可 以 从 pg, resqueue status 系统 视图 检查 资源 队列 的 运行 时 状态 : 


db1=# select * from pg resqueue status; 
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rsqname | segmem | segcore | segsize | segsizemax | 

inusemem | inusecore | rsqholders | rsqwaiters | paused 

----------- +--------+---------+---------+------------+----------+---------- 
-+------------ 4------------ 4-------- 

pg root | 256 | 0.125000 | 72 L72 10 

| 0.000000 10 IM | F 

pg_default | 256 | 0.125000 | 36 | 10 

| 0.000000 10 10 || F 

test queue 1 | 256 | 0.125000 | 28 i57 | 0 

| 0.000000 10 1 0 [| 13 

(3 rows) 


# 7-3 描述 了 pg resqueue status 视图 中 各 字段 的 含义 。 
表 7-3 pg_resqueue_status 视图 中 字段 的 含义 





字段 名 称 描述 











Tsqname 资源 队列 名 称 

segmem 每 个 虚拟 段 内 存 限 额 (MB) 

Segcore 每 个 虚拟 段 的 CPU 虚拟 核 数 限额 

Segsize 资源 队列 能 够 为 执行 查询 分 配 的 虚拟 段 数 

Segsizemax 过 度 使 用 其 他 队列 的 资源 时 ， 资 源 队 列 可 为 执行 查询 分 配 的 最 大 虚拟 段 数 

inusemem 当前 运行 的 语句 使 用 的 总 内 存 CMB) 

inusecore 当前 运行 的 语句 使 用 的 总 CPU 虚拟 核 数 

rsqholders 并 发 运行 的 语句 数量 

rsqwaiters 排队 语句 的 数量 

paused 指示 在 没有 资源 状态 改变 时 ， 资 源 队列 是 否 临 时 性 暂停 。 F RRE, T RRE 
“R” 表 示 资 源 队列 发 生 了 资源 碎片 问题 


下 面 的 语句 查询 所 有 资源 队列 的 当前 活动 SQL: 


select usename, rsqname, locktype, objid, transaction, pid, mode, granted, 
waiting 
from pg_stat_activity, pg_resqueue, pg_locks 
where pg stat activity.procpid-pg locks.pid 
and pg locks.objid-pg resqueue.oid; 


下 面 的 语句 查询 所 有 资源 队列 的 当前 等 待 SQL: 


select rolname, rsqname, pid, granted, current_query, datname 
from pg roles, pg resqueue, pg locks, pg stat activity 
where pg roles.rolresqueue-pg locks.objid 
and pg locks.objid-pg resqueue.oid 
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and pg_stat_activity.procpid=pg_locks.pid; 


3. 给 角色 赋予 资源 队列 

资源 队列 对 资源 的 管理 是 通过 角色 (用 户 ) 发 挥 作用 的 。 角 色 被 赋予 某 个 资源 队列 ， 用 该 
角色 执行 的 查询 受 相应 资源 队列 限制 。 只 允许 为 角色 赋予 叶子 队列 。 

创建 或 修改 角色 时 赋予 角色 一 个 资源 队列 : 

dbl=# create role rmtest1 with login resource queue pg default; 

CREATE ROLE 

dbl-£ alter role rmtestl resource queue test queue 1; 


ALTER ROLE 
db1=# 


查看 为 角色 分 配 的 资源 队列 : 


db1=# select rolname, rsqname from pg roles, pg_resqueue 
db1-# where pg roles.rolresqueue-pg resqueue.oid; 
rolname | rsqname 

eco cs dece e 

gpadmin | pg default 

wxy | pg default 

rmtestl | test queue 1 

(3 rows) 


查询 资源 管理 器 状态 


通过 一 些 查 询 能 够 导出 资源 管理 器 的 细节 信息 , 如 活跃 资源 上 下 文 状态 、 当 前 资源 队列 状 
、HAWQ Segment 状态 等 。 

1. 连接 状态 跟踪 

查询 执行 时 从 资源 管理 器 请 求 分 配 资源 , 此 时 会 有 一 个 连接 跟踪 实例 , 记录 查询 资源 使 用 
的 整个 生命 周期 , 从 中 可 以 找到 所 有 的 资源 请 求 与 分 配 情况 。 下面 的 查询 获取 保存 连接 跟踪 状 
态 信息 的 文件 路 径 : 


dbl=# select * from dump resource manager status(1); 


dump resource manager status 





Dump resource manager connection track status to 
/tmp/resource manager conntrack status 
(1 row) 
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表 7-4 总 结 了 该 文件 中 的 输出 字段 及 其 描述 。 
TA 连接 状态 跟踪 文件 中 的 字段 





字段 名 称 描述 





Number of free connection ids 


个 活动 连接 跟踪 实例 


空闲 的 连接 跟踪 实例 数量 。HAWQ 资源 管理 器 支持 最 多 65536 





Number of connection tracks having | 资源 管理 器 已 经 接受 但 还 没有 处 理 的 请 求 数量 


requests to handle 





Number of connection tracks having 


responses to send 


资源 管理 器 已 经 生成 但 还 没有 发 送出 去 的 响应 数量 








SOCK 请 求 的 socket 连接 信息 


CONN 请 求 的 角色 名 称 、 目 标 队列 和 当前 状态 等 信息 : 
prog=1 表示 连接 建立 
prog-2 表示 连接 由 用 户 注册 
prog=3 表示 连接 等 待 目标 队列 中 的 资源 
prog=4 表示 资源 已 经 分 配给 连接 
prog>5 表示 失败 或 异常 状态 
ALLOC 会 话 相关 信息 ， 如 请 求 的 资源 、 会 话 级 资源 限制 、 语 句 级 资源 
设置 、 按 查询 计划 分 片 估计 的 工作 量 等 
LOC 查询 扫描 HDFS 的 数据 本 地 化 信息 
RESOURCE 已 经 分 配 的 资源 信息 
MSG 最 后 收 到 的 消息 
COMMSTAT 当前 socket 通信 缓冲 区 状态 


2. 资源 队列 状态 
获取 保存 资源 队列 状态 信息 的 文件 路 径 : 


dbl=# select * from dump resource manager status(2); 
dump resource manager status 


Dump resource manager resource queue status to 


/tmp/resource manager resqueue status 


(1 row) 


表 7-5 总 结 了 该 文件 中 的 输出 字段 及 其 描述 。 
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表 7-5 资源 队列 状态 文件 中 的 字段 





























字段 名 称 描述 

Maximum capacity of queue in global | YARN 资源 队列 最 大 配额 

resource manager cluster 

Number of resource queues HAWQ 资源 队列 总 数量 

QUEUE 资源 队列 的 基本 结构 信息 ， 以 及 是 否 忙于 为 查询 调度 资源 

REQ 等 待 队列 的 计数 和 状态 

SEGCAP 虚拟 段 资源 限额 和 可 派发 的 虚拟 段 数量 

QUECAP 原始 资源 队列 配额 ， 以 及 一 个 队列 可 以 使 用 的 集群 资源 的 实际 
百分比 

QUEUSE 资源 队列 使 用 信息 








3. HAWQ Segment 状态 
获取 保存 HAWQ Segment 状态 信息 的 文件 路 径 : 


db1=# select * from dump resource manager status (3); 


dump resource manager status 





Dump resource manager resource pool status to 
/tmp/resource manager respool status 


(1 row) 
X 7-6 总 结 了 该 文件 中 的 输出 字段 及 其 描述 。 
表 7-6 Segment 状态 文件 中 的 字段 




















字段 名 称 描述 

HOST ID Segment 名 称 和 内 部 ID 

HOST INFO Segment 配置 的 资源 配额 GRMTotalMemoryMB 和 GRMTotalCore 
显示 YARN 报告 的 限额 ，FTSTotalMemoryMB 和 FTSTotalCore 显 
示 HAWQ 中 配置 的 限额 

HOST_AVAILABILITY Segment 对 于 HAWQ 容错 服务 (fault tolerance service, FTS) 和 
YARN 是 否 可 用 

HOST_RESOURCE 当前 分 配 的 和 可 用 的 资源 ， 以 及 估算 的 负载 计数 器 

HOST RESOURCE CONTAINERSET | Segment 持 有 的 资源 容器 
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/.5 ws 


HAWQ 支持 独立 与 外 部 全 局 资源 管理 器 两 种 资源 管理 模式 。 在 独立 模式 下 ,HAWQ 使 用 
集群 节点 资源 时 , 假设 它 能 使 用 所 有 Segment 节点 的 资源 , 而 不 考虑 其 他 共存 的 应 用 。 如 果 使 
用 YARN 模式 ， 需 要 在 YARN 中 为 HAWQ 配置 资源 队列 ， 还 要 在 HAWQ 中 进行 与 YARN 
相关 的 配置 。HAWQ 自动 注册 为 YARN 应 用 ， 使 用 YARN 中 配置 的 资源 队列 。 目 前 HAWQ 
仅 支 持 YARN 的 Capacity 调度 器 。 资 源 队列 是 HAWQ 系统 中 并 发 管理 的 主要 工具 , 是 一 种 数 
据 库 对 象 。HAWQ 内 部 将 资源 队列 组 织 为 一 棵 nn 叉 树 。HAWQ 初始 化 后 ， 有 一 个 名 为 pg_root 
的 根 队列 ， 根 下 有 一 个 名 为 pg_default 的 默认 队列 ， 这 两 个 队列 不 允许 删除 。 资 源 队 列 对 资源 
的 管理 是 通过 角色 (用户) 发 挥 作用 的 。 可 以 通过 检查 相应 的 状态 文件 ， 跟 踪 连 接 状 态 、 资 源 
队列 状态 和 Segment 资源 池 状 态 。 
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对 数据 仓库 功能 上 的 两 个 基本 要 求 是 外 部 数据 访问 和 高 效 数据 装载 ，HAWQ 在 这 两 方面 
为 用 户 提供 了 丰富 的 选项 。 本 章 着 重 介绍 HAWQ 的 数据 装载 与 外 部 表 技 术 。 除 了 基本 的 
INSERT 操作 ， 使 用 COPY 命令 可 以 很 方便 地 在 HAWQ 表 与 本 地 文件 之 间 复 制 数据 。 对 于 大 
数据 集 的 本 地 文件 ，gpfdist 提供 了 非常 高 效 的 数据 装载 方式 。 HAWQ 还 支持 基于 Web 的 动态 
外 部 数据 读 取 ， 以 及 对 HDFS 文件 、Hive、HBase、JSON 等 Hadoop 上 数据 的 访问 。 我 们 会 用 
实例 将 这 些 技术 一 一 展现 。 


3.1 基本 数据 操作 


1. INSERT 
在 常用 的 增删 改 查 数据 库 操作 中 ，HAWQ 仅 支 持 INSERT 和 SELECT 两 种 ， 不 支持 
UPDATE 和 DELETE， 这 主要 是 因为 HDFS 是 一 个 只 能 追加 而 不 能 更 新 数据 的 文件 系统 。 开 
发 人 员 应 该 对 SELECT 最 熟悉 不 过 , 因为 它 是 数据 库 中 最 常用 的 语句 (在 第 10 章 “ 查 询 优化 ” 
时 会 进一步 讨论 )。INSERT 语句 用 于 创建 表 行 , 该 命令 需要 表 名 和 表 中 每 个 列 的 值 ,在 HAWQ 
中 ， 该 命令 有 四 种 用 法 ， 其 中 三 种 是 SQL 常规 用 法 ， 另 一 种 是 对 标准 SQL 的 扩展 。 
CD 指定 列 名 与 列 值 
可 以 按 任 何 顺序 指定 列 名 ， 只 需 列 值 与 列 名 一 一 对 应 。 
insert into products (name, price, product_no) values ('Cheese', 9.99, 1); 
(2) 仅 指定 列 值 
如 果 不 指定 列 名 ， 数 据 值 列表 的 个 数 与 顺序 必须 与 表 中 定义 的 列 保持 一 致 
insert into products values (1, 'Cheese', 9.99); 
(3) 使 用 SELECT 语句 
通常 数据 值 是 常量 ， 但 是 也 可 以 使 用 标量 表达 式 或 查询 语句 。 此 时 ， 利 用 SELECT 语句 
选 出 的 列表 必须 与 插入 表 的 列 顺序 一 致 、 类 型 兼容 。 


insert into products select * from tmp_products where price < 100; 
insert into products (name, price, product_no) 


select * from tmp_products where price < 100; 


如 果 列 有 默认 值 ， 可 以 在 插入 语句 中 省 略 该 列 名 而 使 用 默认 值 。 


insert into products (name, product_no) 


select name, product no from tmp products where price < 100; 
(4) 显 式 一 次 插入 多 行 
这 个 SQL 扩展 与 MySQL 类 似 , 一 条 INSERT 语句 中 可 以 显 式 指 定 多 条 需要 插入 的 记录 。 
db1=# create table t (a int); 
CREATE TABLE 
db1=# insert into t values (1), (2), (3); 


INSERT 0 3 
db1=# select * from t; 


(3 rows) 


如 果 需 要 快速 插入 大 量 数据 ， 最 好 使 用 后 面 介绍 的 外 部 表 或 COPY 命令 ， 这 些 数据 装载 
机 制 比 INSERT 更 有 效 。 


2. 整理 系统 目录 表 


(1) VACUUM 

对 于 数据 库 中 的 对 象 , 如 表 、 视 图 、 函 数 等 ， 总 是 在 不 断 地 执行 新 增 、 删 除 、 修 改 等 操作 ， 
相应 地 会 引起 HAWQ 系统 目录 表 的 增删 改 。 因 此 对 系统 目录 良好 的 空间 管理 非常 重要 ， 这 能 
够 给 性 能 带 来 大 幅 提 升 。 当 删除 一 个 数据 库 对 象 时 , 并 不 立即 释放 该 条 目 在 系统 目录 表 中 所 占 
用 的 空间 ， 而 是 在 该 条 目 上 设置 一 个 过 期 标志 。 只 有 当 执行 VACUUM 命令 时 , 才 会 物理 删除 
那些 已 经 标识 为 过 期 的 数据 条 目 并 释放 空间 。 应 该 定期 执行 VACUUM 命令 移 除 过 期 行 , 该 命 
令 也 可 收集 表 级 的 统计 信息 ， 如 行 数 和 页 数 等 。 

db1=# -- 整理 pg_class RAK 

dbl=# vacuum pg class; 

VACUUM 

db1=# -- 整理 并 分 析 pg class 系统 表 

dbi-£ vacuum analyze pg class; 

VACUUM 

dbl=# -- 整理 并 分 析 pg class 系统 表 的 指定 列 

dbi-£ vacuum analyze pg class 
(relname,relam,relpages,reltuples,relkind,relnatts,relacl,reloptions); 
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VACUUM 


(2) 配置 空余 空间 映射 

过 期 行 被 保存 在 名 为 free space map 的 结构 中 。 它 必须 足够 大 ， 能 保存 数据 库 中 的 所 有 过 
WHT. VACUUM 命令 不 能 回收 超过 free space map 以 外 过 期 行 占用 的 空间 。HAWQ 中 不 推荐 
使 用 VACUUM FULL， 因 为 对 于 大 表 ， 该 操作 可 能 造成 不 可 接受 的 执行 时 间 。 

db1=# vacuum full pg_class; 

NOTICE: 'VACUUM FULL' is not safe for large tables and has been known to yield 
unpredictable runtimes. 

HINT: Use 'VACUUM' instead. 

VACUUM 


free space map 的 大 小 由 以 下 服务 器 配置 参数 所 控制 : 


€ max fsm pages 

€ max fsm relations 

max fsm pages (整数 ) 设置 free space map 跟踪 的 最 大 页 数 。 每 个 页 横 位 占用 6 字 节 的 共 
LACE. 至 少 要 设置 为 16 * max_fsm_relations。 在 初始 安装 时 ， 系统 依照 可 用 内 存 的 数量 设置 
该 参数 的 默认 值 。 修 改 该 参数 后 需要 重启 HAWQ 使 其 生效 。 

[gpadmin@hdp3 ~]$ hawq config -s max_fsm_pages 

GUC : max fsm pages 

Value : 200000 

max fsm relations 整数) 设置 free space map FRIAR. EAR EHE 7 字 节 
左右 的 共享 内 存 。 默 认 值 为 1000。 设 置 该 参数 后 需要 重启 HAWQ 使 其 生效 。 


[gpadmin@hdp3 ~]$ hawq config -s max_fsm_relations 


GUC : max fsm relations 
Value : 1000 
3. 其 他 操作 


与 Oracle, MySQL 等 常用 数据 库 系统 一 样 ，HAWQ 支持 MVCC 并 发 访问 控制 和 非 锁 定 
读 ， 支 持 ACCESS SHARE、ROW EXCLUSIVE、SHARE UPDATE EXCLUSIVE、SHARE、 
SHARE ROW EXCLUSIVE, ACCESS EXCLUSIVE 六 种 锁 模式 ， 以 及 读 非 提交 、 读 提交 、 可 
重复 读 、 串 行 化 四 种 标准 的 事务 隔离 级 别 。 因 为 数据 仓库 应 用 中 的 ETL 操作 通常 为 一 个 独立 
的 后 台 程 序 ， 几乎 没有 并 发 调用 , 而 前 台 的 分 析 类 应 用 大 都 是 只 读 操作 ， 所 以 这 里 不 展开 讨论 
并 发 控制 与 事务 处 理 。 
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f > 79 


[e J $ $ 
O.A ”数据 装载 与 卸载 


HAWQ 既 支 持 大 数据 量 、 多 个 文件 的 高 性 能 并 行 数据 装载 、 卸 载 操作 ， 又 支持 小 数据 量 、 
单个 文件 、 非 并 发 的 数据 导入 导出 .HAWQ 可 读 写 多 种 外 部 数据 源 , 包括 本 地 文本 文件 .HDFS 
或 Web 服务 器 。 

在 后 面 8.4 节 中 会 详细 说 明 PXF 外 部 表 ， 这 里 先 介绍 使 用 gpfdist 协议 的 外 部 表 。PXF 外 
部 表 针 对 HDFS 上 的 文件 访问 ， 而 gpfdist 用 于 对 本 地 文件 的 并 行 访问 。gpfdist 是 一 个 HAWQ 
的 并 行文 件 分 布 程序 。 它 是 一 个 操作 外 部 表 的 HTTP 服务 器 ， 使 HAWQ 的 Segment 可 以 从 多 
个 文件 系统 的 外 部 表 并 行 装载 数据 。 可 以 在 多 个 不 同 的 主机 上 运行 gpfdist 实例 ， 并 能 够 并 行 
使 用 它们 。 

外 部 Web 表 提 供 了 对 动态 数据 的 访问 功能 。 它 支持 使 用 HTTP 协议 从 URL 访问 数据 , 或 
者 通过 运行 在 Segment 上 的 脚本 输出 数据 。 

hawq load 应 用 使 用 一 个 YAML 格式 的 控制 文件 ， 自 动 完成 数据 装载 任务 。 

HAWQ 中 的 COPY SQL 命令 可 在 Master 主机 上 的 文本 文件 与 HAWQ 数据 库 表 之 间 转 移 
数据 。 

所 选择 的 数据 装载 方法 依赖 于 数据 源 的 特性 ， 如 位 置 、 数 据 量 、 格 式 、 需 要 的 转换 等 。 最 
简单 的 情况 下 ， 一 条 COPY 命令 就 可 将 HAWQ 主 实例 上 的 文本 文件 装载 到 表 中 。 对 于 少量 
据 ， 这 种 方式 不 需要 更 多 步骤 ， 并 提供 了 良好 的 性 能 。COPY 命令 在 HAWQ Master 主机 上 的 
单个 文件 与 数据 库 表 之 间 复 制 数据 。 这 种 方式 复制 的 数据 量 受 限于 文件 所 在 系统 所 允许 的 单一 
文件 最 大 字 节 数 。 对 于 大 数据 集 ， 更 为 有 效 的 数据 装载 方式 是 利用 HAWQ 的 MPP 架构 ， 用 
多 个 HAWQ Segments 并 行 装载 数据 。 该 方式 允许 同时 从 多 个 文件 系统 装载 数据 ， 实 现 很 高 的 
数据 传输 速率 。 用 gpfdist 创建 的 外 部 表 会 使 用 所 有 HAWQ Segment RRRA, 2f ELSE 
全 并 行 操作 。 

无 论 使 用 哪 种 方法 ， 装 载 完 数据 都 应 运行 ANALYZE。 如 果 装 载 了 大 量 表 数据 ， 运 行 
ANALYZE 或 VACUUM ANALYZE (只 对 系统 目录 表 ) 为 查询 优化 器 更 新 表 的 统计 信息 ， 使 当 
前 统计 信息 保证 优化 器 做 出 最 好 的 查询 计划 , 避免 由 于 数据 增长 或 缺失 统计 信息 导致 性 能 问题 。 


8.2.1 gpfdist 协议 及 其 外 部 表 


1. gpfdist 
gpfdist 是 HAWQ 提供 的 一 种 文件 服务 器 ， 利 用 HAWQ 系统 中 的 所 有 Segment 读 写 外 部 
表 。 它 提供 了 良好 的 性 能 ， 并 且 非 常 容易 运行 。 
(1) 并 行 性 
gp external max segs 服务 器 配置 参数 控制 可 被 单一 gpfdist 实例 同时 使 用 的 虚拟 段 的 数 
量 ， 默 认 值 为 64。 在 Master 实例 的 hawq-site.xml 文件 中 设置 此 参数 。 
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[gpadmin@hdp3 ~]$ hawq config -s gp_external_max_segs 

GUC : gp external max segs 

Value : 64 

用 户 可 能 需要 设置 虚拟 段 的 数量 , 例如 一 些 用 于 处 理 外 部 表 数 据 文 件 、 一 些 执行 其 他 的 数 
据 库 操 作 。hawq_rm_nvseg_perquery_perseg_limit 和 hawq rm nvseg perquery limit 参数 控制 并 
行 虚 拟 段 的 数量 ， 它 们 限制 集群 中 一 个 gpfdist 外 部 表 上 执行 查询 时 使 用 的 最 大 虚拟 段 数 。 


(2) 启动 与 停止 

可 以 选择 在 HAWQ Master 以 外 的 其 他 机 器 上 运行 gpfdist, 例如 一 个 专门 用 于 ETL 处 理 的 
主机 。 使 用 gpfdist 命令 启动 gpfdist。 该 命令 位 于 HAWQ Master 主机 和 每 个 Segment 主机 的 
SGPHOME/bin 目录 中 。 可 以 在 当前 目录 位 置 或 者 指定 任意 目录 启动 gpfdist， 默 认 的 端口 是 
8080。 下 面 是 一 些 启动 gpfdist 的 例子 。 
处 理 当 前 目录 中 的 文件 ， 使 用 默认 的 8080 端口 。 
gpadmin@hdp4 ~]$ gpfdist & 


/home/gpadmin/load_data/ 是 要 处 理 的 文件 目录 ，8081 是 HTTP 端口 号 , /home/gpadmin/log 
是 消息 与 错误 日 志文 件 ， 进 程 在 后 台 运行 。 

gpadmin@hdp4 ~]$ gpfdist -d /home/gpadmin/load_data/ -p 8081 -1 
/home/gpadmin/log & 

在 同一 个 ETL 主机 上 运行 多 个 gpfdist 实例 ， 每 个 实例 使 用 不 同 的 目录 和 端口 。 


gpadmin@hdp4 ~]$ gpfdist -d /home/gpadmin/load datal/ -p 8081 -1 
/home/gpadmin/logl & 
gpadmin@hdp4 ~]$ gpfdist -d /home/gpadmin/load data2/ -p 8082 -1 
/home/gpadmin/log2 & 


HAWQ 没有 提供 停止 gpfdist 的 特殊 命令 ,直接 使 用 操作 系统 的 kill 命令 停止 gpfdist 进程 。 
gpadmin@hdp4 ~]$ ps -ef |grep gpfdist |grep -v grep | awk '(print $2)'|xargs 
kill -9 

(3) 排 错 

如 果 gpfdist 启动 时 报 出 类 似 没有 libapr-1.s0.0 或 libyaml-0.s0.2 文件 的 错误 ， 则 需要 安装 
相应 的 包 。 


yum install apr 





yum install libyaml 


虚拟 段 在 运行 时 访问 gpfdist， 因 此 需要 保证 HAWQ Segment 主机 能 访问 gpfdist 实例 。 
gpfdist 实际 上 是 一 个 Web 服务 器 ， 可 以 在 HAWQ 的 每 个 主机 (Master 和 Segment) 上 执行 下 
面 的 命令 测试 连通 性 : 


[gpadmin@hdp3 ~]$ wget http://gpfdist_hostname:port/filename 
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CREATE EXTERNAL TABLE 定义 必须 为 gpfdist 提供 正确 的 主机 名 、 端 口号 和 文件 名 。 
2. gpfdist 外 部 表 
(1) gpfdist 协议 
在 外 部 数据 文件 所 在 的 主机 上 运行 gpfdist 命令 ， 外 部 表 定义 中 使 用 gpfdist:// 协 议 引 用 一 
个 运行 的 gpfdist 实例 。gpfdist 自动 解压 缩 gzip Cgz) 和 bzip2 Cbz2) 文件 。 可 以 使 用 通配符 
CO 或 其 他 C 语言 风格 的 模式 匹配 多 个 需要 读 取 的 文件 。 指 定 的 文件 应 该 位 于 启动 gpfdist 
实例 时 指定 的 目录 下 。 
所 有 虚拟 段 并 行 访问 外 部 文件 ， 虚 拟 段 的 数量 受 gp_external_max_segments 参数 、gpfdist 
的 位 置 列表 长 度 , 以 及 hawq_rm_nvseg_perquery_limit 和 hawq_rm_nvseg_perquery_perseg_limit 
参数 的 影响 。 在 CREATE EXTERNAL TABLE 语句 中 使 用 多 个 gpfdist 数据 源 可 扩展 外 部 表 扫 
描 性 能 。 


(2) 创建 gpfdist 外 部 表 
为 了 创建 一 个 gpfdist 外 部 表 ， 需 要 指定 输入 文件 的 格式 和 外 部 数据 源 的 位 置 。 使 用 以 下 
协议 之 一 访问 外 部 表 数 据 源 ,一 条 CREATE EXTERNAL TABLE 语句 中 使 用 的 协议 必须 唯一 ， 
不 能 混用 多 个 协议 。 
€ gpfdist/ 一 一 指定 主机 上 的 一 个 目录 ， 用 于 存储 外 部 数据 文件 。HAWQ 的 所 有 
Segment 可 并 行 访问 该 目录 下 的 文件 。 
€ gpfdists:/ —— gpfdist 的 安全 版 本 。 
使 用 gpfdist 外 部 表 的 步骤 如 下 : 
a. 启动 gpfdist 文件 服务 器 。 
b. 定义 外 部 表 。 
c. 将 数据 文件 放置 于 外 部 表 定义 中 指定 的 位 置 。 
d. 使 用 SQL 命令 查询 外 部 表 。 
与 PXF 外 部 表 一 样 , HAWQ 提供 可 读 与 可 写 两 种 gpfdist 外 部 表 , 但 一 个 外 部 表 不 能 既 可 
读 又 可 写 。 
(3) gpfdist 外 部 表示 例 
例 1: 单 gpfdist 实例 外 部 表 
启动 gpfdist。 
[gpadmin@hdp4 ~]$ gpfdist -p 8081 -d /home/gpadmin/staging -1 /home/gpadmin/log & 
使 用 gpfdist 协议 创建 只 读 外 部 表 examplel1， 文 件 以 管道 符 (|) 作为 列 分 隔 符 。 


db1=# create external table examplel 





db1=# ( name text, date date, amount float4, category text, descl text ) 
db1=# location ('gpfdist://hdp4:8081/*') 
db1=# format 'text' (delimiter '|'); 
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CREATE EXTERNAL TABLE 


准备 文本 文件 数据 。 


[gpadminehdp4 unload datal]$ cd /home/gpadmin/staging 
[gpadmin@hdp4 staging]$ more a.txt 
aaa|2017-01-01|100.1|aaalaaa 
bbb|2017-01-02|100.2|bbb|bbb 

[gpadmin@hdp4 staging]$ more b.txt 
aaa|2017-03-01|200.1|aaalaaa 
bbb|2017-03-02|200.2|bbb|bbb 


查询 外 部 表 。 


dbl=# select * from examplel; 


name | date | amount | category | descl 
------ 4------------R--------4----------4------- 
aaa | 2017-01-01 | 100.1 | aaa | aaa 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
aaa | 2017-03-01 | 200.1 | aaa | aaa 
bbb | 2017-03-02 | 200.2 | bbb | bbb 


(4 rows) 
例 2: 多 gpfdist 实例 外 部 表 
在 hdp3 和 hdp4 上 分 别 启动 一 个 gpfdist 实例 。 


[gpadmin@hdp3 ~]$ gpfdist -p 8081 -d /home/gpadmin/staging -1 /home/gpadmin/log & 
[gpadmin@hdp4 ~]$ gpfdist -p 8081 -d /home/gpadmin/staging -l /home/gpadmin/log & 


使 用 gpfdist 协议 创建 只 读 外 部 表 example2, 文 件 以 管道 符 (|) 作 为 列 分 隔 符 ,"' 表 示 NULL, 


db1=# create external table example2 


db1-# ( name text, date date, amount float4, category text, descl text ) 
db1-# location ('gpfdist://hdp3:8081/*.txt', 'gpfdist://hdp4:8081/*.txt') 
db1-# format 'text' ( delimiter '|' null ' ') ; 


CREATE EXTERNAL TABLE 


查询 外 部 表 ， 因 为 gpfdist//hdp3:8081/* txt 不 存在 而 报错 。 


db1=# select * from example2; 

ERROR: http response code 404 from gpfdist (gpfdist://hdp3:8081/*.txt): 
HTTP/1.0 404 file not found (url.c:306) (seg0 hdp4:40000 pid=53784) 
(dispatcher.c:1801) 

db1=# 


将 外 部 文件 复制 到 hdp3 的 相关 目录 下 。 


[gpadmin@hdp4 staging]$ scp *.txt hdp3://home/gpadmin/staging/ 
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再 次 查询 外 部 表 ， 可 以 正确 读 取 全 部 外 部 文件 数据 。 


dbl=# select * from example2; 


name | date | amount | category | descl 
------ 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 
aaa | 2017-01-01 | 100.1 | aaa | aaa 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
aaa | 2017-03-01 | 200.1 | aaa | aaa 
bbb | 2017-03-02 | 200.2 | bbb | bbb 
aaa | 2017-01-01 | 100.1 | aaa | aaa 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
aaa | 2017-03-01 | 200.1 | aaa | aaa 
bbb | 2017-03-02 | 200.2 | bbb | bbb 
(8 rows) 


例 3: 带 有 错误 日 志 的 单 gpfdist 实例 外 部 表 

默认 在 访问 外 部 表 时 只 要 遇 到 一 行 格式 错误 的 数据 ， 就 立即 返回 错误 ， 并 导致 查询 失败 。 
下 面 的 语句 设置 了 SEGMENT REJECT LIMIT 的 值 ， 只 有 当 一 个 Segment. 上 的 错误 数 大 于 等 
于 5 时 ， 整 个 外 部 表 操作 才 会 失败 ， 并且 不 处 理 任何 行 。 而 当 错 误 数 小 于 5 时 , 会 将 被 拒绝 的 
行 写 入 一 个 错误 表 errs， 其 他 数据 行 还 可 以 正常 返回 。 


db1=# create external table example3 


db1-# ( name text, date date, amount float4, category text, descl text ) 

db1-# location ('gpfdist://hdp3:8081/*.txt', 
'gpfdist://hdp4:8081/*.txt') 

db1-# format 'text' ( delimiter '|' null ' ') 

db1-# log errors into errs segment reject limit 5; 


NOTICE: Error table "errs" does not exist. Auto generating an error table with 
the same name 
CREATE EXTERNAL TABLE 
dbl=# Md errs 
Append-Only Table "public.errs" 


Column | Type | Modifiers 
— —— M ——— 
cmdtime | timestamp with time zone | 
relname | text | 
filename | text l 
linenum | integer | 
bytenum | integer | 
errmsg | text | 
rawdata | text | 
rawbytes | bytea | 


Compression Type: None 
Compression Level: 0 
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Block Size: 32768 
Checksum: f 
Distributed randomly 


db1=# 
准备 一 条 格式 错误 的 数据 。 


[gpadmin@hdp4 staging]$ more a.txt 
aaa|2017-01-01|100.1|aaalaaa 
bbb|2017-01-02|100.2|bbb|bbb 
bbb,2017-01-02,100.2,bbb,bbb 


查询 外 部 表 ， 返 回 8 条 数据 ， 错 误 数 据 进 入 了 errs 表 。 


db1=# select * from example3; 
NOTICE: Found 1 data formatting errors (1 or more input rows). Rejected related 





input data. 

name | date | amount | category | descl 
+ ----— 

aaa | 2017-01-01 | 100.1 | aaa | aaa 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
aaa | 2017-03-01 | 200.1 | aaa | aaa 
bbb | 2017-03-02 | 200.2 | bbb | bbb 
aaa | 2017-01-01 | 100.1 | aaa | aaa 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
aaa | 2017-03-01 | 200.1 | aaa | aaa 
bbb | 2017-03-02 | 200.2 | bbb | bbb 
(8 rows) 
db1=# \x 


Expanded display is on. 
dbl=# select * from errs; 
-[ RECORD 1 ]----------------------------------------------------- 


cmdtime | 2017-04-05 15:23:19.579421+08 

relname | example3 

filename | gpfdist://hdp4:8081/*.txt [/home/gpadmin/staging/a.txt] 
linenum | 3 

bytenum | 

errmsg | missing data for column "date" 

rawdata | bbb, 2017-01-02,100.2,bbb, bbb 

rawbytes | 

db1=# 

准备 5 条 错误 数据 。 
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[gpadmin@hdp4 staging]$ more a.txt 
aaa|2017-01-01|100.1|aaa|aaa 
bbb|2017-01-02|100.2|bbb| bbb 
b1,2017-01-02,100.2, bbb, bbb 
b2,2017-01-02,100.2, bbb, bbb 
b3,2017-01-02,100.2, bbb, bbb 
b4,2017-01-02,100.2, bbb, bbb 
b5,2017-01-02,100.2, bbb, bbb 


再 次 查询 外 部 表 ， 因 为 达到 了 错误 上 限 ， 整 条 语句 失败 ， 没 有 数据 被 返回 


db1=# select * from example3; 


o 





ERROR: Segment reject limit reached. Aborting operation. Last error was: 
missing data for column "date" (seg16 hdp3:40000 pid-350431) 

DETAIL: External table example3, line 7 of gpfdist://hdp4:8081/*.txt: 
"b5,2017-01-02,100.2,bbb,bbb" 

db1=# 


Pl 4: gpfdist 可 写 外 部 表 
建立 可 写 外 部 表 ， 并 插入 一 条 数据 。 


dbl=# create writable external table example4 (name text, date date, amount 
float4, category text, descl text) 

db1-# location ('gpfdist://hdp4:8081/sales.out', 
'gpfdist://hdp3:8081/sales.out') 

db1-# format 'text' ( delimiter '|' null ' ') 

db1-# distributed by (name); 

CREATE EXTERNAL TABLE 

db1=# insert into example4 values ('aaa','2017-01-01',100.1,'aaa','aaa'); 

INSERT 0 1 


结果 只 在 hdp4 上 建立 了 文件 /home/gpadmin/staging/sales.out， 而 hdp3 并 没有 建立 输出 文件 。 


[gpadmin@hdp4 staging]$ more sales.out 
aaa|2017-01-01|100.1|aaalaaa 


再 次 建立 可 写 外 部 表 ， 将 gpfdist 位 置 调换 ， 把 hdp3 放 前 面 ， 并 插入 一 条 数据 。 


db1=# drop external table example4; 

DROP EXTERNAL TABLE 

db1=# create writable external table example4 (name text, date date, amount 
float4, category text, descl text) 

db1-# location ('gpfdist://hdp3:8081/sales.out', 
'gpfdist://hdp4:8081/sales.out') 

db1-# format 'text' ( delimiter '|' null ' ') 

db1-# distributed by (name); 

CREATE EXTERNAL TABLE 
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dbl=# insert into example4 values ('aaa','2017-01-01',100.1,'aaa','aaa'); 
INSERT 0 1 


这 次 只 在 hdp3 上 建立 了 文件 /home/gpadmin/staging/sales.out。 


[gpadmin@hdp3 staging]$ more sales.out 
aaa|2017-01-01|100.1|aaalaaa 


在 LOCATION 子 句 中 指定 同一 主机 上 的 多 个 gpfdist 实例 ,结果 也 是 一 样 的 。 可 见 ， 在 可 
写 外 部 表 上 执行 INSERT 操作 时 ， 只 在 第 一 个 gpfdist 实例 的 位 置 上 生成 本 地 文件 数据 。 


8.22 基于 Web 的 外 部 表 


外 部 表 可 以 是 基于 文件 的 或 基于 Web 的 。 基 于 文件 的 外 部 表 访 问 静态 平面 文件 。 在 查询 
运行 时 数据 是 静态 的 ,数据 可 重复 读 。 基 于 Web 的 外 部 表 通 过 Web 服务 器 的 http 协议 或 通过 
执行 操作 系统 命令 或 脚本 , 访问 动态 数据 源 。 数 据 不 可 重复 读 ， 因 为 在 查询 运行 时 数据 可 能 改变 。 

CREATE EXTERNAL WEB TABLE 语句 创建 一 个 Web 外 部 表 。Web 外 部 表 人 允许 HAWQ 
将 动态 数据 源 视 作 一 个 常规 数据 库 表 。 因 为 Web 表 数 据 可 能 在 查询 运行 时 改变 ， 所 以 数据 是 
不 可 重复 读 的 。 可 以 定义 基于 命令 或 基于 URL 的 Web 外 部 表 , 但 不 能 在 一 条 建 表 命令 中 混用 
1. 基于 命令 的 Web 外 部 表 


用 一 个 shell 命令 或 脚本 的 输出 定义 基于 命令 的 Web 表 数 据 。 在 CREATE EXTERNAL 
WEB TABLE 语句 的 EXECUTE 子 句 指定 需要 执行 的 命令 。 外 部 表 中 的 数据 是 命令 运行 时 的 数 
di. EXECUTE 子 句 在 特定 Master 或 虚拟 段 上 运行 shell 命令 或 脚本 。 脚 本 必须 是 gpadmin 用 
户 可 执行 的 ， 并 且 位 于 所 有 Master 和 Segment 主机 的 相同 位 置 上 ， 虚 拟 段 并 行 运行 命令 。 

外 部 表 定 义 中 指定 的 命令 从 数据 库 执 行 ， 数 据 库 不 能 从 .bashrc 或 .profile 获取 环境 变量 ， 因 此 
需要 在 EXECUTE 子 句 中 设置 环境 变量 。 下 面 的 外 部 表 运 行 一 个 HAWQ Master 主机 上 的 命令 : 


create external web table output (output text) 





execute 'PATH-/home/gpadmin/programs; export PATH; myprogram.sh' 
on master 
format 'text'; 


下 面 的 命令 定义 一 个 Web X, fE 5 个 虚拟 段 上 运行 一 个 名 为 get_log_data.sh 脚本 文件 。 


create external web table log output (linenum int, message text) 
execute '/home/gpadmin/get log data.sh' ON 5 
format 'text' (delimiter '|'); 


资源 管理 器 在 运行 时 选取 虚拟 段 。 
2. 基于 URL 的 Web 外 部 表 
基于 URL 的 Web 表 使 用 HTTP 协议 从 Web 服务 器 访问 数据 ，Web 表 数 据 是 动态 的 。 在 
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LOCATION 子 句 中 使 用 http:// 指 定 文件 在 Web 服务 器 上 的 位 置 。Web 数据 文件 必须 在 所 有 
Segment 主机 能 够 访问 的 Web 服务 器 上 。URL 的 数量 对 应 访问 该 Web 表 时 并 行 的 最 少 虚拟 段 
数量 。 下 面 的 例子 定义 了 一 个 从 多 个 URL 获取 数据 的 Web 表 。 


create external web table ext_expenses ( 
name text, date date, amount float4, category text, description text) 
location ('http://hdpl/sales/file.csv', 
'"http://hdpl/exec/file.csv', 
"http://hdp1/finance/file.csv', 
"http: //hdp1/ops/file.csv', 
"http: //hdp1/marketing/file.csv', 
"http: //hdp1/eng/file.csv' 
) 


format 'csv'; 


3. 基于 Web 的 外 部 表示 例 

例 5: 执行 脚本 的 可 读 Web 外 部 表 

建立 外 部 表 。 

dbl=# create external web table example5 (linenum int, message text) 
db1-# execute '/home/gpadmin/get_log data.sh' on 5 


db1-# format 'text' (delimiter '|'); 
CREATE EXTERNAL TABLE 


HAWQ Se HEH f f ELATED i I8] — A AAS, RU eif mds 
如 hdpl 上 没有 /home/gpadmin/get_log_data.sh 文件 : 

dbl=# select * from example5; 

ERROR: external table example5 command ended with error. sh: 
/home/gpadmin/get log data.sh: No such file or directory (seg0 hdp1:40000 
pid-360600) 

DETAIL: Command: execute:/home/gpadmin/get log data.sh 

对 该 外 部 表 的 查询 会 返回 每 个 虚拟 段 输出 的 并 集 ， 如 get log data.sh 脚本 内 容 如 下 : 


#!/bin/bash 
echo "llaaa" 
echo "2|bbb" 


则 该 表 将 返回 10 条 〈 每 个 虚拟 段 两 条 ，5 个 虚拟 段 ) 数据 : 


dbl=# select * from example5; 


linenum | message 
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aaa 
bbb 
aaa 
bbb 
aaa 
bbb 
aaa 
bbb 


FF N PN Ph Nb PP 


2 
(10 rows) 


执行 查询 时 , 资源 管理 器 最 少 分 配 5 个 虚拟 段 。 如 果 建 表 时 指定 的 虚拟 段 数 超过 了 允许 的 


最 大 值 ， 表 仍然 可 以 建立 ， 但 查询 时 会 报错 。 


db1=# drop external web table example5; 

DROP EXTERNAL TABLE 

db1=# create external web table example5 (linenum int, message text) 
db1-# execute '/home/gpadmin/get log data.sh' on 100 

db1-# format 'text' (delimiter '|'); 

CREATE EXTERNAL TABLE 

db1=# select * from example5; 


ERROR: failed to acquire resource from resource manager, minimum expected 


number of virtual segment 100 is more than maximum possible number 64 in queue 


pg_default (pquery.c:804) 


例 6: 执行 脚本 的 可 写 Web 外 部 表 
创建 外 部 表 。 


db1=# create writable external web table example6 


db1-# (name text, date date, amount float4, category text, descl text) 

db1-# execute 'PATH-/home/gpadmin/programs; export PATH; myprograml.sh' 
on 6 

db1-# format 'text' (delimiter '|') 

db1-4 distributed randomly; 
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CREATE EXTERNAL TABLE 
myprograml.sh 的 内 容 如 下 : 


#!/bin/bash 
while read line 
do 
echo "File:${line}" >> /home/gpadmin/programs/a.txt 
done 


向 外 部 表 中 插入 数据 。 


dbl=# insert into example6 values ('aaa','2017-01-01',100.1,'aaa','aaa'); 
INSERT 0 1 


db1=# insert into example6 values ('bbb','2017-02-01',200.1,'bbb',''); 
INSERT 0 1 


插入 的 数据 通过 管道 输出 给 myprograml.sh 并 执行 ， 可 以 看 到 插入 的 数据 被 写 入 了 atxt 
文件 。 与 可 读 表 不 同 ， 该 文件 只 在 一 个 HAWQ 主机 上 生成 ， 并 且 每 次 插入 数据 只 生成 一 行 。 
[gpadmin@hdp4 programs]$ more /home/gpadmin/programs/a.txt 


File:aaa|2017-01-01|100.1]aaa|aaa 
File:bbb|2017-02-01|200.1|bbb| 


82.3 ”使 用 外 部 表 装 载 数据 


使 用 INSERT INTO target table SELECT ... FROM source external table 命令 向 HAWQ 表 
装载 数据 : 
create table expenses travel (like ext expenses); 


insert into expenses travel 


select * from ext_expenses where category='travel'; 
也 可 以 在 创建 一 个 新 表 的 同时 装载 数据 : 


create table expenses as select * from ext expenses; 


8.24 ”外 部 表 错 误 处 理 


可 读 外 部 表 通 常 被 用 于 选择 数据 装载 到 普通 的 HAWQ 数据 库 表 中 。 使 用 CREATE TABLE 
AS SELECT 或 INSERT INTO 命令 查询 外 部 表 数 据 。 默 认 ， 如 果 数 据 包含 错误 ， 则 整 条 命令 
失败 , 没有 数据 装载 到 目标 数据 库 表 中 。SEGMENT REJECT LIMIT 子 名 允许 隔离 外 部 表 中 格 
式 错误 的 数据 ， 并 继续 装载 格式 正确 的 行 。 使 用 SEGMENT REJECT LIMIT à fi rv p] 
值 ， 指 定 拒绝 的 数据 行 数 〈 默 认 ) 或 一 个 占 总 行 数 的 百分比 (1-100 o 

如 果 错 误 行 数 达到 了 SEGMENT REJECT LIMIT 的 值 ， 整 个 外 部 表 操 作 失 败 ， 没 有 数据 
行 被 处 理 。 注 意 ， 限 制 的 错误 行 数 是 相对 于 一 个 虚拟 段 的 ， 而 不 是 整个 操作 的 。 如 果 错 误 行 数 
没有 达到 SEGMENT REJECT LIMIT 值 ， 操 作 处 理 所 有 正确 的 行 ， 丢 弃 错 误 行 ， 或 者 可 选 地 
将 格式 错误 的 行 写 入 日 志 表 。LOG ERRORS 子 句 允 许 保 存 错误 行 以 备 后 续 检查 。 

设置 SEGMENT REJECT LIMIT 会 使 HAWQ 以 单行 错误 隔离 模式 扫描 外 部 数据 。 当 外 部 
数据 行 出 现 多 余 属性 、 缺 少 属性 、 数 据 类 型 错误 、 无 效 的 客户 端 编码 序列 等 格式 错误 时 ， 单 行 
错误 隔离 模式 将 错误 行 丢弃 或 写 入 日 志 表 。HAWQ 不 检查 约束 错误 ， 但 可 以 在 查询 外 部 表 时 
过 滤 约 束 错误 。 例如， 消除 重复 键 值 错误 : 

insert into table with pkeys select distinct * from external table; 

1. 使 用 单行 错误 隔离 定义 外 部 表 

下 面 的 例子 在 HAWQ 表 中 记录 错误 记录 ， 并 设置 错误 行 闵 值 为 10。 


db1=# create external table ext expenses ( name text, date date, amount float4, 
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category text, descl text ) 
db1-# location ('gpfdist://hdp3:8081/*', 'gpfdist://hdp4:8081/*') 
db1-# format 'text' (delimiter '|') 
db1-# log errors into errs segment reject limit 10 rows; 
CREATE EXTERNAL TABLE 
2. 标识 无 效 的 CSV 文件 数据 
如 果 一 个 CSV 文件 包含 无 效 格式 ， 错 误 日 志 表 的 rawdata 字段 可 能 包含 多 行 。 例 如 ， 某 
字段 少 了 一 个 闭合 的 引号 , 后 面 所 有 的 换行 符 都 被 认为 是 数据 中 内 嵌 的 换行 符 。 当 这 种 情况 发 
生 时 ，HAWQ 在 一 行 数据 达到 64KB 时 停止 解析 ， 并 将 此 64KB 数据 作为 单行 写 入 错误 日 志 
R, 然后 重 置 引号 标记 ,继续 读 取 数据 。 如 果 这 种 情况 在 处 理 装 载 时 发 生 三 次 , 载 入 文件 被 认 
为 是 无 效 的 ， 整 个 装载 失败 ， 错 误 信 息 为 “rejected N or more rows”。 
3. 表 间 迁移 数据 
可 以 使 用 CREATE TABLE AS 或 INSERT...SELECT 语句 将 外 部 表 的 数据 装载 到 其 他 非 外 
部 表 中 ,数据 将 根据 外 部 表 的 定义 并 行 装载 。 如 果 一 个 外 部 表 数 据 源 有 错误 ,依赖 于 使 用 的 错 
误 隔 离 模式 ， 有 以 下 两 种 处 理 方式 : 
© 表 没 有 设置 错误 隔离 模式 : 读 取 该 表 的 任何 操作 都 会 失败 。 没有 设置 错误 隔离 模式 的 
外 部 表 上 的 操作 将 整体 成 功 或 失败 。 
e 表 设 置 了 错误 隔离 模式 : 除了 发 生 错 误 的 行 ， 其 他 数据 将 被 装载 (依赖 于 
REJECT_LIMIT 的 配置 ) 。 





8.2.55 使 用 hawq load 装载 数据 

HAWQ 的 hawq load 应 用 程序 使 用 可 读 外 部 表 和 HAWQ 并 行文 件 系统 (gpfdist 或 gpfdists) 
装载 数据 。 它 并 行 处 理 基 于 文件 创建 的 外 部 表 ， 允许 用 户 在 单一 配置 文件 中 配置 数据 格式 、 外 
部 表 定 义 以 及 gpfdist 或 gpfdists 的 设置 。 

1. 确认 建立 了 运行 hawq load 的 环境 

hawq load 需要 依赖 某 些 HAWQ 安装 中 的 文件 ， 如 gpfdist 和 Python， 还 要 能 通过 网 络 访 
问 所 有 HAWQ Segment 主机 。 

2. 创建 控制 文件 

hawq load 的 控制 文件 是 一 个 YAML (Yet Another Markup Language) 格式 的 文件 ， 在 其 
中 指定 HAWQ 连接 信息 、gpfdist 配置 信息 、 外 部 表 选 项 、 数 据 格式 等 。 下 面 是 一 个 名 为 
my load.yml 的 控制 文件 内 容 : 


VERSION: 1.0.0.1 
DATABASE: db1 
USER: gpadmin 
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HOST: hdp3 
PORT: 5432 
GPLOAD: 
INPUT: 
- SOURCE: 
LOCAL HOSTNAME: 
- hdp4 
PORT: 8081 
FILE: 
- /home/gpadmin/staging/*.txt 
- COLUMNS: 
- name: text 
- date: date 
- amount: float4 
- category: text 
- descl: text 
- FORMAT: text 
- DELIMITER: '|' 
- ERROR LIMIT: 25 
- ERROR TABLE: errlog 


OUTPUT: 

- TABLE: tl 

- MODE: INSERT 
SQL: 


- BEFORE: "INSERT INTO audit VALUES('start', current timestamp)" 
- AFTER: "INSERT INTO audit VALUES('end', current timestamp)" 

hawq load 控制 文件 使 用 YAML 1.1 文档 格式 , 为 了 定义 HAWQ 数据 装载 的 各 种 步骤 , 它 
定义 了 自己 的 schema。 控 制 文件 必须 是 一 个 有 效 的 YAML 文档 。hawq load 程序 按 顺序 处 理 
控制 文件 文档 ， 并 使 用 空格 识别 文档 中 各 段 之 间 的 层次 关系 ,因此 空格 的 使 用 非常 重要 。 不 要 
使 用 TAB 符 代替 空格 ，YAML 文档 中 不 要 出 现 TAB 符 。 

LOCAL HOSTNAME 指定 运行 hawq load 的 本 地 主机 名 或 IP 地 址 。 如 果 机 器 配置 了 多 块 
网 卡 ， 可 以 为 每 块 网 卡 指定 一 个 主机 名 ， 人 允许 同时 使 用 多 块 网 卡 传输 数据 。 比 如 hdp4 上 配置 
了 两 块 网 卡 ， 可 以 如 下 配置 LOCAL_HOSTNAME: 

LOCAL HOSTNAME: 

- hdp4-1 

- hdp4-2 


3. hawq load 示例 
准备 本 地 文件 数据 。 
[gpadmin@hdp4 staging]$ more a.txt 


aaa|2017-01-01|100.1|aaa|aaa 
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bbb|2017-01-02|100.2|bbb| bbb 
[gpadmin@hdp4 staging]$ more b.txt 
aaa|2017-03-01|200.1|aaal|aaa 
bbb|2017-03-02|200.2|bbb|bbb 


建立 目标 表 和 audit 表 。 

dbl=# create table tl ( name text, date date, amount float4, category text, descl 
text ); 

CREATE TABLE 


db1=# create table audit (flag varchar(10),st timestamp); 
CREATE TABLE 


PUT hawq load. 


[gpadmin@hdp4 ~]$ hawq load -f my load.yml 

2017-04-05 16:41:44|INFO|gpload session started 2017-04-05 16:41:44 

2017-04-05 16:41:44|INFO|setting schema 'public' for table 'tl' 

2017-04-05 16:41:44|INFO|started gpfdist -p 8081 -P 8082 -f 
"/home/gpadmin/staging/*.txt" -t 30 

2017-04-05 16:41:49|INFO|running time: 5.63 seconds 

2017-04-05 16:41:49|INFO|rows Inserted =4 

2017-04-05 16:41:49|INFO|rows Updated =0 

2017-04-05 16:41:49|INFO|data formatting errors = 0 

2017-04-05 16:41:49|INFO|gpload succeeded 

[gpadmin@hdp4 ~]$ 


查询 目标 表 和 audit 表 。 
dbl=# select * from tl; 


name | date | amount | category | descl 


---- 





aaa | 2017-01-01 | 100.1 | aaa | aaa 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
aaa | 2017-03-01 | 200.1 | aaa | aaa 
bbb | 2017-03-02 | 200.2 | bbb | bbb 
(4 rows) 


dbl=# select * from audit; 
flag | st 


start | 2017-04-05 16:41:44.736296 


end | 2017-04-05 16:41:49.60153 
(2 rows) 
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8.2.6 使 用 COPY 复制 数据 


COPY 是 HAWQ 的 SQL 命令 ， 它 在 标准 输入 和 HAWQ 表 之 间 复 制 数据 。COPY FROM 
命令 将 本 地 文件 追加 到 数据 表 中 ， 而 COPY TO 命令 将 数据 表 中 的 数据 覆盖 写 入 本 地 文件 。 
COPY 命令 是 非 并 行 的 ， 数 据 在 HAWQ Master 实例 上 以 单 进程 处 理 ， 因 此 只 推荐 对 非常 小 的 
数据 文件 使 用 COPY 命令 .本 地 文件 必须 在 Master 主机 上 ,默认 的 文件 格式 是 逗号 分 隔 的 CSV 
文本 文件 ,HAWQ 使 用 客户 端 与 Master 服务 器 之 间 的 连接 , 从 STDIN 或 STDOUT 复制 数据 。 

[gpadmin@hdp4 ~]$ psql -h hdp3 -d dbl 

psql (8.2.15) 

Type "help" for help. 


db1=# create table t2 (like t1); 

NOTICE: Table doesn't have 'distributed by' clause, defaulting to distribution 
columns from LIKE table 

CREATE TABLE 

db1=# copy t2 from '/home/gpadmin/staging/a.txt' with delimiter '|'; 


GOPY 2 

db1=# select * from t2; 

name | date | amount | category | descl 
------ 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 
aaa | 2017-01-01 | 100.1 | aaa | aaa 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
(2 rows) 


将 表 数 据 卸 载 到 Master 的 本 地 文件 中 ， 如 果 文 件 不 存在 则 建立 文件 ， 否 则 会 用 卸载 数据 
覆盖 文件 原来 的 内 容 。 
db1=# copy (select * from t2) to '/home/gpadmin/staging/c.txt' with delimiter 


"qs 


COPY 2 


[gpadmin@hdp3 staging]$ more /home/gpadmin/staging/c.txt 

bbb|2017-01-02|100.2|bbb|bbb 

aaa|2017-01-01|100.1|aaalaaa 

SUA. COPY 在 遇 到 第 一 个 错误 时 就 会 停止 运行 。 如 果 数 据 含 有 错误 ， 操 作 失 败 ， 没 有 数 
据 被 装载 。 如 果 以 单行 错误 隔离 模式 运行 COPY，HAWQ 跳 过 含有 错误 格式 的 行 ， 装 载 具 有 
正确 格式 的 行 。 如 果 数 据 违 反 了 NOTNULL 或 CHECK 等 约束 条 件 , 操 作 仍然 是 “all-or-nothing” 
输入 模式 ， 整 个 操作 失败 ， 没 有 数据 被 装载 。 

[gpadmin@hdp3 staging]$ more a.txt 


aaa|2017-01-01|100.1|aaal|aaa 
bbb|2017-01-02|100.2|bbb|bbb 
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向 表 复 制 本 地 文件 数据 。 

db1=# create table t3 ( name text not null, date date, amount float4, category 
text, descl text ); 

CREATE TABLE 

db1=# copy t3 from '/home/gpadmin/staging/a.txt' 

db1-# with delimiter '|' log errors into errtable 

db1-# segment reject limit 5 rows; 


COPY 2 

db1=# select * from t3; 

name | date | amount | category | descl 
------ 4------------4--------R----------4------- 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
asa | 2017=01=01 | 100.1 | aö | aaa 

(2 rows) 


修改 文件 ， 制 造 一 行 格式 错误 的 数据 。 


[gpadmin@hdp3 staging]$ more a.txt 
aaa, 2017-01-01,100.1,aaa,aaa 
bbb | 2017-01-02|100.2|bbb| bbb 


再 次 复制 数据 。 与 卸载 不 同 ， 装 载 会 向 表 中 追加 数据 。 


db1=# copy t3 from '/home/gpadmin/staging/a.txt' 
db1-# with delimiter '|' log errors into errtable 
db1-# segment reject limit 5 rows; 


COPY 1 

dbl=# select * from t3; 

name | date | amount | category | descl 
------ 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
bbb | 2017-01-02 | 100.2 | bbb | bbb 
aaa | 2017-01-01 | 100.1 | aaa | aaa 

(3 rows) 

dbl-£ Nx 


Expanded display is on. 
db1=# select * from errtable; 


-[ RECORD 1 ]---------------------------- 
cmdtime | 2017-04-05 16:56:02.402161+08 
relname Lt3 

filename | /home/gpadmin/staging/a.txt 
linenum | 3 
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bytenum | 


errmsg | missing data for column "date" 
rawdata | aaa,2017-01-01,100.1,aaa,aaa 
rawbytes | 

db1=# 


再 次 修改 文件 ， 将 name 字段 对 应 的 数据 置 空 ， 因 为 该 字段 定义 为 NOT NULL， 所 以 违反 
约束 ， 没 有 数据 被 复制 。 
[gpadmin@hdp3 staging]$ more a.txt 


12017-01-01|100.1|aaal|aaa 
bbb|2017-01-02|100.2|bbb|bbb 





dbl=# truncate table t3; 
TRUNCATE TABLE 
db1=# copy t3 from '/home/gpadmin/staging/a.txt' 
with delimiter '|' null as '' log errors into errtable 
segment reject limit 5 rows; 
ERROR: null value in column "name" violates not-null constraint (seg5 
hdp1:40000 pid-370883) 
CONTEXT: COPY t3, line 1: "|2017-01-01|100.1]|aaa|aaa" 
dbl=# select * from t3; 
name | date | amount | category | descl 


(0 rows) 
8.2.7 ”卸载 数据 


-个 可 写 外 部 表 人 允许 用 户 从 其 他 数据 库 表 选择 数据 行 并 输出 到 文件 、 命 名 管道 、 应 用 或 
MapReduce。 如 前 面 的 例 4 和 例 6 所 示 ， 可 以 定义 基于 gpfdist 或 Web 的 可 写 外 部 表 。 对 于 使 
用 gpfdist 协议 的 外 部 表 ，HAWQ Segment 将 它们 的 数据 发 送 给 gpfdist，gpfdist 将 数据 写 入 命 
名 文件 中 。gpfdist 必须 运行 在 HAWQ Segment 能 够 在 网 络 上 访问 的 主机 上 。gpfdist 指向 一 个 
输出 主机 上 的 文件 位 置 ， 将 从 HAWQ Segment 接收 到 的 数据 写 入 文件 。 一 个 可 写 Web 外 部 表 
的 数据 作为 数据 流 发 送 给 应 用 。 例 如 ， 从 HAWQ 卸载 数据 并 发 送 给 一 个 连接 其 他 数据 库 的 应 
用 或 向 别处 装载 数据 的 ETL 工具 。 可 写 Web 外 部 表 使 用 EXECUTE 子 句 指定 一 个 运行 在 
Segment 主机 上 的 shell 命令 、 脚 本 或 应 用 ， 接 收 输入 数据 流 。 

可 以 选择 为 可 写 外 部 表 声 明 分 布 策略 。 默 认 ， 可 写 外 部 表 使 用 随机 分 布 。 如 果 要 导出 的 源 
表 是 哈 希 分 布 的 , 为 外 部 表 定 义 相同 的 分 布 键 列 会 提升 数据 卸载 性 能 ,因为 这 消除 了 数据 行 在 
内 部 互联 网 络 上 的 移动 。 如 果 印 载 一 个 特定 表 的 数据 ， 可 以 使 用 LIKE 子 句 复制 源 表 的 列 定 义 
与 分 布 策略 。 


db1=# create writable external table unload expenses 
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db1-# ( like t1 ) 

db1-# location ('gpfdist://hdp3:8081/expensesl.out', 

dbl(f 'gpfdist://hdp4:8081/expenses2.out') 

dbl-# format 'text' (delimiter ','); 

NOTICE: Table doesn't have 'distributed by' clause, defaulting to distribution 
columns from LIKE table 

CREATE EXTERNAL TABLE 


可 写 外 部 表 只 允许 INSERT 操作 。 如 果 执 行 卸 载 的 用 户 不 是 外 部 表 的 属 主 或 超级 用 户 , 必 
须 授予 对 外 部 表 的 INSERT 权限 。 


grant insert on unload_expenses TO admin; 


与 例 4 Ala], INSERT INTO 外 部 表 SELECT ... 语句 中 ， 外 部 表 的 输出 文件 只 能 在 一 个 
ERLE, AMAR. 


db1=# insert into unload expenses select * from tl; 





ERROR: External table has more URLs then available primary segments that can 
write into them (seg0 hdp1:40000 pid=387379) 

db1=# drop external table unload expenses; 

DROP EXTERNAL TABLE 

db1=# create writable external table unload expenses 

db1-# ( like tl ) 

db1-# location ('gpfdist://hdp3:8081/expensesl.out') 

db1-# format 'text' (delimiter ','); 

NOTICE: Table doesn't have 'distributed by' clause, defaulting to distribution 
columns from LIKE table 

CREATE EXTERNAL TABLE 

db1=# insert into unload expenses select * from t1; 

INSERT 0 4 


查看 导出 的 数据 。 


[gpadmin@hdp3 staging]$ more expensesl.out 
aaa,2017-01-01,100.1,aaa,aaa 
bbb,2017-01-02,100.2,bbb,bbb 
aaa,2017-03-01,200.1,aaa,aaa 
bbb,2017-03-02,200.2,bbb,bbb 

[gpadmin@hdp3 staging]$ 


如 上 面 的 例 6 所 示 ， 也 可 以 定义 一 个 可 写 的 外 部 Web 表 ， 发 送 数据 行 到 脚本 或 应 用 。 脚 
本 文件 必须 接收 输入 流 ， 而 且 必须 存在 于 所 有 HAWQ Segment 主机 的 相同 位 置 上 ， 并 可 以 被 
gpadmin 用 户 执 行 。HAWQ 系统 中 的 所 有 Segment 都 执行 脚本 ， 无 论 Segment 是 否 有 需要 处 
理 的 输出 行 。 

允许 外 部 表 执 行 操作 系统 命令 或 脚本 会 带 来 相应 的 安全 风险 。 为 了 在 可 写 外 部 Web 表 定 
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义 中 禁用 EXECUTE, 可 在 HAWQ Master 的 hawq-site.xml 文件 中 设置 gp_external_enable_exec 
服务 器 配置 参数 为 off。 


gp_external enable exec = off 

正如 前 面 说 明 COPY 命令 时 所 看 到 的 ，COPY TO 命令 也 可 以 用 来 卸载 数据 。 它 使 用 
HAWQ Master 主机 上 的 单一 进程 ， 将 表 中 数据 复制 到 HAWQ Master 主机 上 的 一 个 文件 〈 或 
标准 输入 ) 中 。COPY TO 命令 重 写 整个 文件 ， 而 不 是 追加 记录 。 





8.2.8 hawg register 

该 命令 将 HDFS 上 的 Parquet 表 数 据 装载 并 注册 到 对 应 的 HAWQ 表 中 。hawq register 的 使 
用 场景 好 像 很 有 限 ， 因 为 它 只 能 注册 HAWQ 或 Hive 已 经 生成 的 Parquet 表 文 件 。 关 于 该 命令 
的 使 用 可 参考 : http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-incubating/datamgmt/load/ 
g-register_files.html. 


8.2.9 格式 化 数据 文件 

使 用 HAWQ 工具 装载 或 卸载 数据 时 ， 必 须 指 定数 据 的 格式 。CREATE EXTERNAL 
TABLE, hawg load 和 COPY 都 包含 指定 数据 格式 的 子 句 。 数 据 可 以 是 固定 分 隔 符 的 文本 或 喜 
号 分 隔 值 (CSV) 格式 。 外 部 数据 必须 是 HAWQ 可 以 正确 读 取 的 格式 。 

1. 行 分 隔 符 

HAWQ 需要 数据 行 以 换行 符 (LF, Line feed, ASCII fii 0x0A)、 回 车 符 (CR, Carriage return, 
ASCII 值 0x0D) 或 回 车 换行 符 〈CR+LF，0x0D 0x0A) 作为 行 分 隔 符 。LF 是 类 UNIX 操作 系 
统 中 标准 的 换行 符 。 而 Windows 或 Mac OS X 使 用 CR 或 CR+LF。 所 有 这 些 表示 一 个 新 行 的 
特殊 符号 都 被 HAWQ 作为 行 分 隔 符 所 支持 。 

2. 列 分 隔 符 

文本 文件 和 CSV 文件 默认 的 列 分 隔 符 分 别 是 TAB CASCI 值 为 0x09) 和 逗号 (ASCII 值 为 
Ox2C) 。 在 定义 数据 格式 时 , 可 以 在 CREATE EXTERNAL TABLE 或 COPY 命令 的 DELIMITER 
子 句 , 或 者 hawq load 的 控制 文件 中 ， 声 明 一 个 单字 符 作为 列 分 隔 符 。 分 隔 符 必 须 出 现在 字段 值 
之 间 ， 不 要 在 一 行 的 开头 或 结尾 放置 分 隔 符 。 如 使 用 管道 符 〈|) 作为 列 分 隔 符 : 

data value l|data value 2|data value 3 

下 面 的 建 表 命令 显示 以 管道 符 作 为 列 分 隔 符 : 


create external table ext_table (name text, date date) 
location ('gpfdist://host:port/filename.txt) 
format 'text' (delimiter '|'); 
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3. 空 值 

ZE (NULL) 表示 一 列 中 的 未 知 数据 。 可 以 指定 数据 文件 中 的 一 个 字符 串 表 示 空 值 。 文 
本 文件 中 表示 空 值 的 默认 字符 串 为 N，CSV 文件 中 表示 空 值 的 默认 字符 串 为 不 带 引 号 的 空 串 
〈 两 个 连续 的 逗号 ) 。 定 义 数 据 格式 时 ， 可 以 在 CREATE EXTERNAL TABLE, COPY 命令 
的 NULL 子 句 ， 或 者 hawq load 的 控制 文件 中 ， 声 明 其 他 字符 串 表 示 空 值 。 例 如 ， 若 不 想 区 分 
空 值 与 空 串 ， 就 可 以 指定 空 串 表示 NULL. H HAW 装载 工具 时 ， 任 何 与 声明 代表 NULL 
的 字符 串 相 匹配 的 数据 项 都 被 认为 是 空 值 。 

4. 转 义 

列 分 隔 符 与 行 分 隔 符 在 数据 文件 中 具有 特殊 含义 。 如 果实 际 数据 中 也 含有 这 个 符号 , 必须 
对 这 些 符号 进行 转 义 ， 以 使 HAWQ 将 它们 作为 普通 数据 而 不 是 列 或 行 的 分 隔 符 。 文 本 文件 默 
认 的 转 义 符 为 一 个 反 斜 枉 〈\) ，CSYV 文件 默认 的 转 义 符 为 一 个 双 引 号 (") 。 

(1) 文本 文件 转 义 

可 以 在 CREATE EXTERNAL TABLE, COPY 的 ESCAPE 子 句 , 或 者 hawq load 的 控制 文 
件 中 指定 转 义 符 。 假 设 有 以 下 三 个 字段 的 数据 : 

backslash = \ 


vertical bar = | 


exclamation point = ! 

指定 管道 符 CD 为 列 分 隔 符 、 反 和 斜 枉 〈\) 为 转 义 符 ， 则 对 应 的 数据 行 格式 如 下 : 

backslash = \\ | vertical bar = \| | exclamation point = ! 

可 以 对 八进制 或 十 六 进 制 序列 应 用 转 义 符 。 在 装载 进 HAWQ 时 ， 转 义 后 的 值 就 是 八进制 
或 十 六 进 制 的 ASCH 码 所 表示 的 字符 。 例 如 ， 取 址 符 〈&) 可 以 使 用 十 六 进 制 的 〈\Ox26) 或 
八进制 的 (046). 表示 。 

如 果 要 在 CREATE EXTERNAL TABLE. COPY 命令 的 ESCAPE 子 句 ， 或 者 hawq load 
的 控制 文件 中 禁用 转 义 ， 可 如 下 设置 : 

ESCAPE 'OFF' 

ES HET A NEG PARRE RAL Cli Web 日 志 数 据 ) 的 情况 。 

(2) CSV 文件 转 义 

可 以 在 CREATE EXTERNAL TABLE、COPY 的 ESCAPE 子 句 , 或 者 hawq load 的 控制 文 
件 中 指定 转 义 符 。 假 设 有 以 下 三 个 字段 的 数据 : 

Free trip to A,B 


5.89 
Special rate "1.79" 


指定 逗号 〈,) 为 列 分 隔 符 、 一 个 双 引 号 〈") 为 转 义 符 ， 则 数据 行 格式 如 下 : 
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"Free trip to A,B","5.89","Special rate ""1.79""" 

将 字段 值 置 于 双 引 号 中 能 保留 字符 串 中 头 尾 的 空格 。 

5. 字符 编码 

在 将 一 个 Windows 操作 系统 上 生成 的 数据 文件 装载 到 HAWQ 前 ， 先 使 用 dos2unix 系统 
命令 去 除 只 有 Windows 使 用 的 字符 ， 如 删除 文件 中 的 CR ("\x0D')。 


6. 导入 导出 固定 宽度 数据 

HAWQ 的 函数 fixedwith_in 和 fixedwidth out 支持 固定 宽度 的 数据 格式 。 这 些 函 数 的 定义 
保存 在 SGPHOME/share/postgresql/cdb_external_extensions.sql 文件 中 。 下 面 的 例子 声明 一 个 自 
定义 格式 ， 然 后 调用 fixedwidth_in 函数 指定 为 固定 宽度 的 数据 格式 。 

dbl=# create readable external table students ( 

dbl(# name varchar(5), address varchar(10), age int) 


db1-# location ('gpfdist://hdp4:8081/students.txt') 
db1-# format 'custom' (formatter-fixedwidth in, name-'5', address='10', 





age='4'); 
CREATE EXTERNAL TABLE 
db1=# select * from students; 


name | address | age 
于 = 人 
abcde | 1234567890 | 40 
(1 row) 


students.txt 文件 内 容 如 下 : 


[gpadmin@hdp4 unload datal]$ more students.txt 

abcde12345678900040 

文件 中 一 行 记 录 的 字 节 必 须 与 建 表 语句 中 字段 字 节 数 的 和 一 致 ,如 上 例 中 一 行 必须 严格 为 
19 字 节 ， 否 则 读 取 文 件 时 会 报错 。 再 看 一 个 含有 中 文 的 例子 。 

[gpadmin@hdp4 unload datal]$ echo $LANG 

zh CN.UTF-8 

[gpadmin@hdp4 unload datal]$ more students.txt 

中 文中 文中 0040 

操作 系统 和 数据 库 的 字符 集 都 是 UTF8， 一 个 中 文 占用 三 字 节 ， 记 录 一 共 19 字 节 ， 满 足 
读 取 条 件 。 

db1=# select * from students; 

name | address | age 
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name 字段 5 FH, address 字段 10 字 节 ， 理 论 上 这 两 个 字段 都 应 该 含有 不 完整 的 字符 ， 
但 从 查询 结果 看 到 ，HAWQ 在 这 里 做 了 一 些 处 理 ，name 字段 读 取 了 一 个 完整 的 中 文 ，address 
字段 读 取 了 三 个 完整 的 字符 。 而 中 间 按 字 节 分 列 的 中 文字 符 被 不 可 见 字符 所 取代 。 

dbl=# select 
char length (name),octet length (name),substr (name,1,1),substr (name,2,1) from 
students; 

char_length | octet length | substr | substr 


(1 row) 


db1=# select 
char length(address),octet length(address),substr(address,1,1), substr (address, 
2,1) from students; 

char_length | octet_length | substr | substr 


(1 row) 
以 下 选项 指定 如 何 读 取 固 定 宽 度数 据 文件 。 
© 读 取 全 部 数据 ,装载 固定 宽度 数据 一 行 中 的 所 有 字段 ,并 按 它们 的 物理 顺序 进行 装载 。 
必须 指定 字段 长 度 , 不 能 指定 起 始 与 终止 位 置 。 固定 宽度 参数 中 字段 名 的 顺序 必须 与 
CREATE TABLE 命令 中 的 顺序 相 匹 配 。 
e 设置 空格 与 NULL 特性 。 默 认 尾 部 空格 被 截取 。 为 了 保留 尾部 空格 ， 使 用 
preserve_blanks=on 选项 。 使 用 null='null_string_value' 选 项 指定 代表 NULL 的 字符 串 。 
€ ”如果 指定 了 preserve_blanks=on， 也 必须 定义 代表 NULL 值 的 字符 串 ， 和 否则 会 报 
ERROR: A null_value was not defined. When preserve blanks is on, a null value. 
€ ”如 果 指 定 了 preserve blanks-off, 没有 定义 NULL, 并 且 一 个 字段 只 包含 空格 , HAWQ 
向 表 中 写 一 个 null。 如 果 定 义 了 NULL，HAWQ 向 表 中 写 一 个 空 串 。 
€ 使 用 line_delim='line_ending' 参 数 指定 行 尾 字符 。 下 面 的 例子 履 盖 大 多 数 情况 。 E 
表示 转 义 ， 就 是 说 如 果 记 录 正 文中 含有 line_delim， 需 要 进行 转 义 。 
line_delim=E'\n' 
line_delim=E'\r' 
line_delim=E'\r\n' 
line delim-'abc' 
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数据 库 统计 


统计 信息 指 的 是 数据 库 中 所 存储 数据 的 元 信息 描述 。 查 询 优化 器 需要 依据 最 新 的 统计 信 
息 , 为 查询 生成 最 佳 执行 计划 。 例如 , 查询 连接 了 两 个 表 , 一 个 表 必 须 被 广播 到 所 有 Segment, 
那么 优化 器 会 选择 广播 其 中 的 小 表 ， 使 网 络 流量 最 小 化 。 

ANALYZE 命令 计算 优化 器 所 需 的 统计 信息 , 并 将 结果 保存 到 系统 目录 中 。 有 三 种 方式 启 
动 分 析 操 作 : 

© 直接 运行 ANALYZE PA. 

© 在 数据 库 外 运行 analyzedb 命令 行 应 用 程序 。 

© 执行 DML 操作 的 表 上 没有 统计 信息 ， 或 者 DML 操作 影响 的 行 数 超过 了 指定 的 冰 值 

时 ， 系 统 自 动 执行 分 析 操 作 。 

计算 统计 信息 会 消耗 时 间 和 资源 , 因此 HAWQ 会 在 大 表 上 进行 采样 , 通过 计算 部 分 数据 ， 
产生 统计 信息 的 估算 值 。 大 多 数 情况 下 , 默认 设置 能 够 提供 生成 正确 查询 执行 计划 的 信息 。 如 
果 产 生 的 统计 不 能 生成 优化 的 查询 执行 计划 ,管理 员 可 以 调整 配置 参数 ,通过 增加 样本 数据 量 ， 
产生 更 加 精确 的 统计 。 统 计 信息 越 精确 ， 所 消耗 的 CPU 和 内 存 资 源 越 多 ， 因 此 可 能 由 于 资源 
的 限制 , 无 法 生成 更 好 的 计划 。 此 时 就 需要 查看 执行 计划 并 测试 查询 性 能 ， 目 标 是 要 通过 增加 
的 统计 成 本 达到 更 好 的 查询 性 能 。 


8.3.1 系统 统计 


1. 表 大 小 

查询 优化 器 使 用 查询 必须 处 理 的 数据 行 数 和 必须 访问 的 磁盘 页 数 等 统计 信息 ,寻找 查询 所 
需 的 最 小 磁盘 VO 和 网 络 流量 的 执行 计划 。 用 于 估算 行 数 和 页 数 的 数据 分 别 保存 在 pg, class 系 
统 表 的 reltuples 和 relpages 列 中 , 其 中 的 值 是 最 后 运行 VACUUM 或 ANALYZE 命令 时 生成 的 
数据 。 对 于 默认 的 AO (Append Only) 表 ， 系 统 目录 中 的 tuples 数 是 最 近 的 值 ， 因 此 reltuples 
统计 是 精确 值 而 不 是 估算 值 ， 但 relpages 是 AO 数据 块 的 估算 值 。 如 果 reltuples 列 的 值 与 
SELECT COUNT(*) 的 返回 值 差 很 多 ， 应 该 执行 分 析 更 新 统计 信息 。 


2. pg_statistic 系统 表 与 pg_stats 视图 
pg statistic 系统 表 保 存 每 个 数据 库 表 上 最 后 执行 ANALYZE 操作 的 结果 。 每 个 表 列 有 一 
行 记录 ， 具 有 以 下 字段 : 


€ starelid: 列 所 属 表 的 对 象 ID. 

€  staatnum: 所 描述 列 在 表 中 的 编号 ， 从 1 开始 。 
€ stanullfrac: 列 中 空 值 占 比 。 

€ stawidth: 非 空 数据 项 的 平均 宽度 ， 单 位 是 字 节 。 
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€ stadistinct: 列 中 不 同 非 空 数据 值 的 个 数 。 

€ stakindN: 表示 后 面 number、values 所 示 的 数据 用 途 ， 被 用 于 生成 pg_stats。 例 如 ，1 
表示 是 MCV (Most Common Values) 的 值 ; 2 表示 直方 图 (histogram) 448; 3 表 
示 相 关 性 (correlation ) 的 值 等 . kind 的 取 值 范围 : 1~99, 内 核 占 用 ; 100~199, PostGIS 
占用 ; 200~299，ESRI ST_Geometry 几何 系统 占用 ; 300~9999， 公 共 占 用 。 

€ staopN: 表示 该 统计 值 支持 的 操作 ， 如 一 ' 或 “< 等。 

€  stanumbersN: 如 果 是 MCV 类 型 (kind=1 ) , 那么 这 里 就 是 下 面 对 应 的 stavaluesN 出 
现 的 概率 值 ， 即 MCF. 

€ stavaluesN: anyarray 类 型 的 数据 ， 内 核 特 殊 类 型 ， 不 可 更 改 ， 是 统计 信息 的 值 部 分 ， 
与 kind 对 应 。 例 如 ，kind=2 时 ， 这 里 的 值 表 示 直 方 图 。 


pg_statistic 表 将 不 同 的 统计 类 型 分 为 四 类 ， 分 别 用 四 个 字段 表示 。pg_stats 视图 以 一 种 更 


友好 的 方式 表示 pg_statistic 的 内 容 ， 其 定义 如 下 : 


SELECT n.nspname AS schemaname, c.relname AS tablename, a.attname, s.stanullfrac 


AS null frac, s.stawidth AS avg width, s.stadistinct AS n distinct, 
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CASE 1 
WHEN s.stakindl THEN s.stavaluesl 
WHEN s.stakind2 THEN s.stavalues2 
WHEN s.stakind3 THEN s.stavalues3 
WHEN s.stakind4 THEN s.stavalues4 
ELSE NULL::anyarray 
END AS most common vals, 


CASE 1 
WHEN s.stakindl THEN s.stanumbersl 
WHEN s.stakind2 THEN s.stanumbers2 
WHEN s.stakind3 THEN s.stanumbers3 
WHEN s.stakind4 THEN s.stanumbers4 


ELSE NULL::real[] 
END AS most common freqs, 


CASE 2 
WHEN s.stakindl THEN s.stavaluesl 
WHEN s.stakind2 THEN s.stavalues2 
WHEN s.stakind3 THEN s.stavalues3 
WHEN s.stakind4 THEN s.stavalues4 


ELSE NULL::anyarray 
END AS histogram bounds, 


CASE 3 
WHEN s.stakindl THEN s.stanumbers1[1] 
WHEN s.stakind2 THEN s.stanumbers2[1] 
WHEN s.stakind3 THEN s.stanumbers3[1] 
WHEN s.stakind4 THEN s.stanumbers4[1] 


ELSE NULL: :real 
END AS correlation 
FROM pg_statistic s 
JOIN pg class c ON c.oid = s.starelid 
JOIN pg_attribute a ON c.oid = a.attrelid AND a.attnum = s.staattnum 
LEFT JOIN pg_namespace n ON n.oid = c.relnamespace 
WHERE has table privilege(c.oid, 'select'::text); 


新 建 的 表 没 有 统计 信息 。 

3. 采样 

为 大 表 计 算 统计 信息 时 ，HAWQ 通过 对 基 表 采样 数据 的 方式 建立 一 个 小 表 。 如 果 基 表 是 
分 区 表 ,， 从 全 部 分 区 中 采样 。 样 本 表 中 的 行 数 取决 于 由 gp. analyze relative. error 系统 配置 参数 
指定 的 最 大 可 接受 错误 数 。 该 参数 的 默认 值 是 0.25 (25%) 。 通 常 该 值 已 经 足够 生成 正确 的 查 
询 计划 。 如 果 ANALYZE 不 能 产生 好 的 表 列 估算 ， 可 以 通过 调 低 该 参数 值 ， 增 加 采样 的 数据 
量 。 需 要 注意 的 是 ， 降 低 该 值 可 能 导致 大 量 的 采样 数据 ， 并 明显 增加 分 析 时 间 。 


[gpadmin@hdp3 ~]$ hawq config -s gp analyze relative error 





GUC : gp analyze relative error 
Value : 0.25 


4. 统计 更 新 

不 带 参数 运行 ANALYZE 会 更 新 当前 数据 库 中 所 有 表 的 统计 信息 ， 这 可 能 需要 执行 很 长 
时 间 。 所 以 最 好 分 析 单 个 表 , 在 一 个 表 中 的 数据 大 量 修 改 后 分 析 该 表 。 也 可 以 选择 分 析 一 个 表 
列 的 子 集 ， 例 如 只 分 析 join, where. order by, group by, having 等 子 句 中 用 到 的 列 。 


db1=# analyze t1 (name,category); 
ANALYZE 


5. 分 析 分 区 和 AO R 

在 分 区 表 上 运行 ANALYZE 命令 时 ， 逐 个 分 析 每 个 叶 级 别 的 子 分 区 。 也 可 以 只 在 新 增 或 
修改 的 分 区 文件 上 运行 ANALYZE， 避 免 分 析 没 有 变化 的 分 区 。analyzedb 命令 行 应 用 自动 跳 
过 无 变化 的 分 区 ， 并 且 它 是 多 会 话 并 行 的 ， 可 以 同时 分 析 几 个 分 区 。 默 认 运 行 5 个 会 话 , 会 话 
数 可 以 通过 命令 行 的 -p 选项 设置 值 域 为 ]~10。 每 次 运行 analyzedb， 它 都 会 将 AO 表 和 分 区 的 
状态 信息 保存 在 Master 节点 数据 目录 中 的 db. analyze 目录 下 ,如 /data/hawq/master/db_analyze/。 
下 次 运行 时 ，analyzedb 比较 每 个 表 的 当前 状态 与 上 次 保存 的 状态 ， 不 分 析 没 有 变化 的 表 或 分 
区 。 但 是 ， 系 统 表 总 是 会 被 分 析 。 

HAWQ 新 的 GPORCA 查询 优化 器 需要 分 区 表 根 级 别 的 统计 信息 , 而 老 的 优化 器 不 使 用 该 
统计 。 通 过 设置 optimizer 和 optimizer_analyze_root_partition 系统 配置 参数 启用 新 的 查询 优化 
器 ， 默 认 是 启用 的 。 


[gpadmin@hdp3 ~]$ hawq config -s optimizer 








GUC : optimizer 
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Value : on 

[gpadmin@hdp3 ~]$ hawq config -s optimizer analyze root partition 

GUC : optimizer analyze root partition 

Value z on 

每 次 运行 ANALYZE 或 ANALYZE ROOTPARTITION 时 ， 根 级 别 的 统计 信息 被 更 新 。 
analyzedb 应 用 默认 更 新 根 分 区 统计 。 当 在 父 表 上 使 用 ANALYZE 收集 统计 信息 时 ， 既 会 收集 
每 个 叶子 分 区 的 统计 信息 , 又 会 收集 分 区 表 的 全 局 统计 信息 。 生 成 分 区 表 查 询 计划 时 两 个 统计 
信息 都 需要 。 如 果 所 有 子 分 区 的 统计 信息 都 已 经 更 新 ，ROOTPARTITION 选项 可 用 于 只 收集 
分 区 表 的 全 局 状态 信息 ， 这 可 以 节省 分 析 时 间 。 如 果 在 一 个 非 根 分 区 或 非 分 区 表 上 使 用 
ROOTPARTITION 选项 ，ANALYZE 命令 将 跳 过 该 选项 并 发 出 一 个 警告 信息 。 








db1=# analyze rootpartition t1; 


WARNING: skipping "t1" --- cannot analyze a non-root partition using ANALYZE 
ROOTPARTITION 

ANALYZE 

dbl-£ analyze rootpartition sales; 

ANALYZE 


8.3.2 ”统计 配置 
1. 统计 目标 


统计 目标 指 的 是 一 个 列 的 most common vals. most common freqs 和 histogram bounds 
数组 的 大 小 。 这 些 数组 的 含义 可 以 从 上 面 pg stats 视图 的 定义 得 到 。 默 认 目 标 值 为 25。 可 以 
通过 设置 服务 器 配置 参数 修改 全 局 目标 值 ， 也 可 以 使 用 ALTER TABLE 命令 设置 任何 表 列 的 
目标 值 。 目 标 值 越 大 ， 优 化 器 评估 质量 越 高 ， 但 ANALYZE 需要 的 时 间 也 越 长 。 

default, statistics target 服务 器 配置 参数 设置 系统 默认 的 统计 目标 ,默认 值 25 通常 已 经 足够 ， 
只 有 经 过 测试 确定 要 定义 一 个 新 目标 时 ， 才 考虑 更 改 此 参数 的 值 。 可 以 通过 Ambari Web UI 和 
命令 行 两 种 方法 修改 配置 参数 值 。 下 面 的 例子 使 用 hawg config 命令 行将 统计 目标 从 25 改 为 50。 

以 HAWQ 管理 员 (默认 为 gpadmin) 登录 HAWQ Master 主机 并 设置 环境 。 


$ source /usr/local/hawq/greenplum path.sh 

使 用 hawq config 应 用 设置 default_statistics_target。 

$ hawq config -c default_statistics_target -v 50 
E 载 使 配置 生效 。 

$ hawq stop cluster -u 


单个 列 的 统计 目标 可 以 用 ALTER TABLE 命令 设置 。 例 如 ， 某 些 查询 可 以 通过 为 特定 列 ， 
尤其 是 分 布 不 规则 的 列 增加 目标 值 提高 性 能 。 如 果 将 一 列 的 目标 值 设 置 为 0，ANALYZE 忽略 
该 列 。 下 面 的 命令 将 descl 列 的 统计 目标 设置 为 0， 因 为 该 列 对 于 查询 优化 没有 任何 作用 。 


上 由 
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dbl=# alter table tl alter column descl set statistics 0; 
ALTER TABLE 


统计 目标 可 以 设置 为 0~ 1000 之 间 的 值 , 或 者 设置 成 -1， 此 时 恢复 使 用 系统 默认 的 统计 目 
标 值 。 父 分 区 表 上 设置 的 统计 目标 影响 子 分 区 。 如 果 父 表 上 某 列 的 目标 设置 为 0， 所 有 子 分 区 
上 的 该 列 统计 目标 也 为 0。 但是， 如 果 以 后 增加 或 者 交换 了 其 他 子 分 区 ， 新 增 的 子 分 区 将 使 用 
默认 目标 值 , 交换 的 子 分 区 使 用 以 前 的 统计 目标 。 因此 如 果 增 加 或 交换 了 子 分 区 ,应 该 在 新 的 
子 分 区 上 设置 统计 目标 。 

2. 自动 收集 统计 信息 

如 果 一 个 表 没 有 统计 信息 ， 或 者 在 表 上 执行 的 特定 操作 改变 了 大 量 数据 时 ，HAWQ 可 以 
在 表 上 自动 运行 ANALYZE。 对 于 分 区 表 ， 自 动 统计 收集 仅 当 直接 操作 叶 表 时 被 触发 ， 它 仅 分 
析 叶 表 。 自 动 收 集 统计 信息 有 三 种 模式 : 

€ none: 禁用 自动 收集 。 

€ on no stats: 在 一 个 没有 统计 信息 的 表 上 执行 CREATE TABLE AS SELECT. 

INSERT. COPY 命令 时 触发 分 析 操 作 。 
€ onchange: 在 表 上 执行 CREATE TABLE AS SELECT. INSERT. COPY 命令 ， 并 且 影 
响 的 行 数 超过 了 gp autostats on change threshold 配置 参数 设 定 的 阅 值 时 触发 分 析 操 作 。 

依据 CREATE TABLE AS SELECT、INSERT、COPY 这 些 命令 是 单独 执行 还 是 在 函数 中 
执行 ， 自 动 收集 统计 信息 模式 的 设置 方法 也 不 一 样 。 如 果 是 在 函数 外 单独 执行 
gp_autostats_mode 配置 参数 控制 统计 模式 ， 默 认 值 为 on_no_stats。 


[gpadmin@hdp3 ~]$ hawq config -s gp_autostats_mode 














GUC : gp_autostats_mode 
Value : ON_NO_STATS 


on change 模式 仅 当 影响 的 行 数 超过 gp autostats on. change threshold ACS Bis FV B 
值 时 触发 ANALYZE， 该 参数 的 默认 值 为 2147483647。 


[gpadminehdp3 ~]$ hawq config -s gp autostats on change threshold 
GUC : gp autostats on change threshold 
Value : 2147483647 


on change 模式 可 能 触发 不 希望 的 、 大 的 分 析 操 作 ， 严 重 时 会 使 系统 中 断 ， 因 此 不 推荐 在 
全 局 修改 该 参数 ， 但 可 以 在 会 话 级 设置 ， 例 如 装载 数据 后 自动 分 析 。 
为 了 禁用 函数 外 部 的 自动 统计 收集 ， 设 置 gp_autostats_mode 参数 为 none: 


$ hawq configure -c gp_autostats_mode -v none 


如 果 想 记录 自动 统计 收集 操作 的 日 志 ， 可 以 设置 log_autostats 系统 配置 参数 为 on。 
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O.F PXF 


HAWQ 不 但 可 以 读 写 自 身 系统 中 的 表 ， 而 且 能 够 访问 HDFS. Hive. HBase 等 外 部 系统 
的 数据 。 这 是 通过 一 个 名 为 PXF 的 扩展 框架 实现 的 。 大 部 分 外 部 数据 以 HAWQ 外 部 表 形 式 进 
行 访问 ， 但 对 于 Hive， 除 外 部 表 方 式 ，PXF 还 能 够 与 HCatalog 结合 直接 查询 Hive 表 。PXF 
内 建 多 个 连接 器 ， 用 户 也 可 以 按照 PXF API 创建 自己 的 连接 器 ， 访 问 其 他 并 行 数据 存储 或 处 
理 引 擎 。 


8.4.1 安装 配置 PXF 
如 果 使 用 Ambari 安装 管理 HAWQ 集群 ， 那 么 不 需要 执行 任何 手动 命令 行 安装 步 又， 从 
Ambari Web 接口 就 可 以 安装 所 有 需要 的 PXF 插件 。 详 细 安装 步骤 参考 第 2 章 “HAWQ 安装 
部 署 ”。 如 果 使 用 命令 行 安装 PXF ， 参 考 http://hawq.incubator.apache.org/docs/userguide/ 
2.1.0.0-incubating/pxf/InstallPXFPlugins.html#install_pxf_plug_cmdline. PXF 相关 的 默认 安装 目 
录 和 文件 如 表 8-1 所 示 。 
表 8-1 PXF 安装 目录 














目录 描述 

/usr/lib/pxf PXF 库 目录 

letc/pxf/conf PXF 配置 目录 。 该 目录 下 包含 pxf-public.classpath 和 pxf-private.classpath 及 其 他 
配置 文件 

/vat/pxf/pxf-service PXF 服务 实例 所 在 目录 

/var/log/pxf 该 目录 包含 pxf-service.log 和 所 有 Tomcat 相关 的 日 志文 件 (PXF 需要 在 主机 上 运 
行 Tomcat， 用 Ambari 安装 PXF 时 会 自动 安装 Tomcat) ， 这 些 文件 的 属 主 是 
pxfpxf， 对 其 他 用 户 是 只 读 的 

/var/run/pxf/catalina.pid | PXF Tomcat 容器 的 PID 文件 ， 存 储 进 程 号 


与 安装 一 样 , PXF 也 可 以 使 用 Ambari 的 图 形 界面 进行 交互 式 配 置 , 完成 后 重启 PXF 服务 
以 使 配置 生效 。 手 动 配置 步骤 参考 http://hawq.incubator.apache.org/docs/userguide/ 
2.1.0.0-incubating/pxf/ConfigurePXF.html， 需 要 修改 所 有 集群 主机 上 的 相关 配置 文件 ， 然 后 重 
启 所 有 节点 上 的 PXF 服务 。 


8.4.2 PXF profile 


PXF profile 是 一 组 通用 元 数据 属性 的 集合 ， 用 于 简化 外 部 数据 读 写 。PXF 自 带 多 个 内 建 的 
profile, $^ profile 将 一 组 元 数据 属性 归于 一 类 ， 使 得 对 以 下 数据 存储 系统 的 访问 更 加 容易 : 


€ HDFS 文 件 ( 读 写 ) 
@ Hive (只 读 ) 
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€ HBase (RẸ) 


# 8-2 说 明了 PXF 的 内 建 profile 及 其 相关 Java KH. 3X !* profile 在 
/etc/pxf/conf/pxf-profiles.xml 文件 中 定义 。 


Profile 


HdfsTextSimple 


HdfsTextMulti 


Hive 


HiveRC 


JSON (只 读 ) 





HT 


38-2 PXF Pji£ profile 


读 写 HDFS 上 平面 文本 文 
件 ， 每 条 记录 由 固定 分 隔 
符 的 一 行 构成 





从 HDFS 上 的 平面 文件 中 
读 取 具 有 固定 分 隔 符 的 记 
录 ， 每 条 记录 由 一 行 或 多 
行 ( 记 录 中 包含 换行 符 ) 

构成 。 此 profile 是 不 可 拆 
分 的 〈 非 并 行 ) ， 比 
HdfsTextSimple 读 取 慢 


读 取 Hive 表 ， 支 持 text, 
RC, ORC, Sequence 或 
Parquet 存储 格式 


优化 读 取 RCFile 存储 格式 
的 Hive 表 ， 必 须 指定 
DELIMITER 参数 








相关 Java 类 
org.apache.hawq.pxfplugins.hdfs.HdfsDataFragmenter 
org.apache.hawq.pxfplugins.hdfs.LineBreakAccessor 
org.apache.hawq.pxfplugins.hdfs.StringPassResolver 
org.apache.hawq.pxf.plugins.hdfs.HdfsDataFragmenter 
org.apache.hawq.pxf.plugins.hdfs.QuotedLineBreakAccessor 
org.apache.hawq.pxf.plugins.hdfs.StringPassResolver 


org.apache.hawq.pxf.plugins.hive.HiveDataFragmenter 
org.apache.hawq.pxf.plugins.hive.HiveAccessor 
org.apache.hawq.pxf.plugins.hive.HiveResolver 
org.apache.hawq.pxf.plugins.hive.HiveMetadataFetcher 
org.apache.hawq.pxf.service.io. GPDBWritable 
org.apache.hawq.pxf.plugins.hive.HiveInputFormatFragmenter 
org.apache.hawq.pxf.plugins.hive.HiveRCFileAccessor 
org.apache.hawq.pxf.plugins.hive.HiveColumnarSerdeResolver 
org.apache.hawq.pxf.plugins.hive.HiveMetadataFetcher 


org.apache.hawq.pxf.service.io. Text 





HiveORC 





优化 读 取 ORCFile 存储 格 
式 的 Hive # 





org.apache.hawq.pxfplugins.hive.HiveInputFormatFragmenter 
org.apache.hawq.pxfplugins.hive.HiveORCAccessor 
org.apache.hawq.pxfplugins.hive.HiveORCSerdeResolver 
org.apache.hawq.pxfplugins.hive.HiveMetadataFetcher 


org.apache.hawq.pxf.service.io.GPDBWritable 
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CBR) 














Profile 描述 相关 Java 类 
HiveText 优化 读 取 TextFile 存储 格 | org.apache.hawq.pxf.plugins.hive.HiveInputFormatFragmenter 
式 的 Hive 表 ， 必 须 指定 org.apache.hawq.pxfplugins.hive.HiveLineBreakAccessor 
DELIMITER 参数 
org.apache.hawq.pxfplugins.hive.HiveStringPassResolver 
org.apache.hawq.pxfplugins.hive.HiveMetadataFetcher 
org.apache.hawq.pxfservice.io.Text 
HBase 读 取 HBase 存储 引擎 数据 | org.apache.hawq.pxfplugins.hbase.HBaseDataFragmenter 
org.apache.hawq.pxfplugins.hbase.HBaseAccessor 
org.apache.hawq.pxfplugins.hbase.HBaseResolver 
Avro 读 取 Avro 文件 org.apache.hawq.pxf.plugins.hdfs.HdfsDataFragmenter 
org.apache.hawq.pxf.plugins.hdfs.AvroFile Accessor 
org.apache.hawq.pxf.plugins.hdfs.AvroResolver 
JSON 读 取 HDFS 上 的 JSON X | org.apache.hawq.pxf.plugins.hdfs.HdfsDataFragmenter 
件 org.apache.hawq.pxf.plugins.json.JsonAccessor 
org.apache.hawq.pxf.plugins.json.JsonResolver 








8.4.3 访问 HDFS 文件 

HDFS 是 Hadoop 应 用 的 主要 分 布 式 存储 机 制 。PXF 的 HDFS 插件 用 于 读 取 存 储 在 HDFS 
文件 中 的 数据 ， 支 持 具有 固定 分 隔 符 的 文本 和 Avro 两 种 文件 格式 。 在 使 用 PXF 访问 HDFS 
文件 前 ， 确 认 已 经 在 集群 所 有 节点 上 安装 了 PXF HDFS 插件 CAmbari 会 自动 安装 ) ， 并 授予 
了 HAWQ 用 户 ( 典 型 的 是 gpadmin) 对 HDFS 文件 相应 的 读 写 权限 。 

1. PXF 支持 的 HDFS 文件 格式 

PXF HDFS 插件 支持 对 以 下 两 种 文件 格式 的 读 取 : 

€ comma-separated value (.csv ) 或 其 他 固定 分 隔 符 的 平面 文本 文件 。 

€ 由 JSON 定义 的 、 基 于 Schema 的 Avro 文件 格式 。 

PXF HDFS 插件 包括 以 下 Profile 以 支持 上 面 的 两 类 文件 : 

€ HdfsTextSimple: 单行 文本 文件 。 

€ HdfsTextMulti: 内 识 换 行 符 的 多 行文 本 文件 。 

@ Avro: Avro 文件 。 

2. 查询 外 部 HDFS 数据 

HAWQ 通过 外 部 表 的 形式 访问 HDFS 文件 。 下 面 是 创建 一 个 HDFS 外 部 表 的 语法 。 
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CREATE EXTERNAL TABLE «table name» 
( «column name» «data type» [, ...] | LIKE «other table» ) 
LOCATION ('pxf://«host»[:«port»]/«path-to-hdfs-file» 
?PROFILE-HdfsTextSimple|HdfsTextMulti |Avro[&<custom-option>=<value>[...] 
d) 
FORMAT '[TEXT|CSV|CUSTOM]' (<formatting-properties>) ; 


CREATE EXTERNAL TABLE 语句 中 使 用 的 各 个 关键 字 和 相应 值 的 描述 如 表 8-3 所 示 。 
表 8-3 HDFS 外 部 表 建 表 语句 说 阴 

















关键 字 值 

<host>[:<port>] HDFS NameNode 主机 名 、 端 口 

<path-to-hdfs-file> HDFS 文件 路 径 

PROFILE PROFILE 关键 字 指 定 为 HdfsTextSimple, HdfsTextMulti 或 Avro 之 一 

<custom-option> 与 特定 PROFILE 对 应 的 用 户 自 定义 选项 

FORMAT 'TEXT 当 <path-to-hdfs-file> 指 向 一 个 单行 固定 分 隔 符 的 平面 文件 时 ， 使 用 该 关键 字 

FORMAT 'CSV' 当 <path-to-hdfs-file> 指 向 一 个 单行 或 多 行 的 逗号 分 隔 值 (CSV) 平面 文件 时 ， 使 
用 该 关键 字 

FORMAT 'CUSTOM* Avro 文件 使 用 该 关键 字 。Avro 'CUSTOM' 格 式 只 支持 内 建 的 
(formatter-'pxfwritable import) 格 式 属性 

<formatting-properties> ”| 与 特定 PROFILE 对 应 的 格式 属性 


下 面 是 几 个 HAWQ 访问 HDFS 文件 的 例子 。 


(1) 使 用 HdfsTextSimple Profile 
HdfsTextSimple Profile 用 于 读 取 一 行 表示 一 条 记录 的 平面 文本 文件 或 CSV 文件 ， 支 持 的 
<formatting-properties> 是 delimiter， 用 来 指定 文件 中 每 条 记录 的 字段 分 隔 符 。 
为 PXF 创建 一 个 HDFS 目录 。 
su - hdfs 


hdfs dfs -mkdir -p /data/pxf_examples 
hdfs dfs -chown -R gpadmin:gpadmin /data/pxf_examples 


建立 一 个 名 为 pxf_ hdfs_simple.txt 的 平面 文本 文件 ， 生 成 四 条 记录 ， 使 用 逗号 作为 字段 分 


echo 'Prague,Jan,101,4875.33 

Rome,Mar,87,1557.39 

Bangalore,May,317,8936.99 

Beijing,Jul,411,11600.67' » /tmp/pxf hdfs simple.txt 


将 文件 传 到 HDFS 上 。 
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hdfs dfs -put /tmp/pxf_hdfs_simple.txt /data/pxf_examples/ 
显示 HDFS 上 的 pxf hdfs simple.txt 文件 内 容 。 
hdfs dfs -cat /data/pxf_examples/pxf_hdfs_simple.txt 


使 用 HdfsTextSimple profile 创建 一 个 可 从 pxf_hdfs_simple.txt 文件 查询 数据 的 HAWQ 外 
部 表 。delimiter=e',' 中 的 。 表 示 转 义 , 就 是 说 如 果 记 录 正 文中 含有 逗号 , 需要 用 \ 符 号 进行 转 义 。 

db1=# create external table pxf hdfs textsimple(location text, month text, 
num orders int, total sales floats) 

db1-# location 
('pxf://hdp1:51200/data/pxf examples/pxf hdfs simple.txt?profile-hdfstextsimpl 
e^) 

db1-# format 'text' (delimiter=e','); 

CREATE EXTERNAL TABLE 

db1=# select * from pxf hdfs textsimple; 


location | month | num orders | total sales 
-T---------- *-------4------------4------------- 
Prague | Jan | 101 i} 4875.33 
Rome | Mar | 87 | 1557.39 
Bangalore | May | 317 | 8936.99 
Beijing | Jul | 411 | 11600.67 
(4 rows) 


用 CSV 格式 创建 第 二 个 外 部 表 。 当 指定 格式 为 “CSV” 时 ， 豆 号 是 默认 分 隔 符 ， 不 再 需 
要 使 用 delimiter 说 明 。 


db1=# create external table pxf_hdfs_textsimple_csv(location text, month text, 





num_orders int, total_sales float8) 

db1-# location 
('pxf://hdp1:51200/data/pxf examples/pxf hdfs simple.txt?profile-hdfstextsimpl 
en 

db1-# format 'csv'; 

CREATE EXTERNAL TABLE 

dbl=# select * from pxf hdfs textsimple csv; 


location | month | num orders | total sales 
----------- +-------+------------+------------- 
Prague | Jan | wor || 4875.33 
Rome | Mar | 87 | 1557.39 
Bangalore | May | 2i y 8936.99 
Beijing | Jul | 411 | 11600.67 
(4 rows) 


(2) 使 用 HdfsTextMulti Profile 
HdfsTextMulti profile 用 于 读 取 一 条 记录 中 含有 换行 符 的 平面 文本 文件 。 因 为 PXF 将 换行 
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符 作 为 行 分 隔 符 ， 所 以 当 数 据 中 含有 换行 符 时 需要 用 HdfsTextMulti 进行 特殊 处 理 。 
HdfsTextMulti Profile 支持 的 <formatting-properties> 是 delimiter, 用 来 指定 文件 中 每 条 记录 的 字 

创建 一 个 平面 文本 文件 。 

vi /tmp/pxf_hdfs_multi.txt 

输入 以 下 记录 ， 以 冒号 作为 字段 分 隔 符 ， 第 一 个 字段 中 含有 换行 符 。 

"4627 Star Rd. 

San Francisco, CA 94107":Sept:2017 

"113 Moon St. 

San Diego, CA 92093":Jan:2018 

51 Belt ct; 

Denver, CO 90123":Dec:2016 

"93114 Radial Rd. 

Chicago, IL 60605":Jul:2017 

"7301 Brookview Ave. 

Columbus, OH 43213":Dec:2018 


使 用 HdfsTextMulti profile 创建 一 个 可 从 pxf_hdfs_multi.txt 文件 查询 数据 的 外 部 表 ， 指 定 
分 隔 符 是 冒号 。 


db1=# create external table pxf_hdfs_textmulti(address text, month text, year 
int) 

db1-# location 
('pxf://hdp1:51200/data/pxf_examples/pxf_hdfs_multi.txt?profile=hdfstextmulti' 
) 

db1-# format 'csv' (delimiter=e':'); 

CREATE EXTERNAL TABLE 

db1=# select * from pxf hdfs textmulti; 


address | month | year 
a CHOSES Kreise ess f Eee 
4627 Star Rd. | Sept | 2017 
San Francisco, CA 94107 
113 Moon St. | Jan | 2018 
San Diego, CA 92093 
51 Belt Ct. | Dec | 2016 
Denver, CO 90123 
93114 Radial Rd. | Jul 152017. 
Chicago, IL 60605 
7301 Brookview Ave. | Dec | 2018 
Columbus, OH 43213 
(5 rows) 
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(3) 访问 HDFS HA 集群 中 的 文件 
为 了 访问 HDFS HA 集群 中 的 外 部 数据 ， 将 CREATE EXTERNAL TABLE LOCATION 子 
句 由 <host>[:<port>] 修 改 为 <HA-nameservice>。 


gpadmin=# create external table pxf_hdfs_textmulti_ha (address text, month text, 


year int) 


location 


('pxf://mycluster/data/pxf examples/pxf hdfs multi.txt?profile-hdfstextmulti') 


format 'csv' (delimiter-e':'); 


gpadmin=# select * from pxf hdfs textmulti ha; 


address | month | year 
ee —X —— 
4627 Star Rd. | Sept | 2017 
San Francisco, CA 94107 
113 Moon St. | Jan | 2018 
San Diego, CA 92093 
51 Belt Ct. | Dec | 2016 
Denver, CO 90123 
93114 Radial Rd. | Jul | 2017 
Chicago, IL 60605 
7301 Brookview Ave. | Dec | 2018 
Columbus, OH 43213 
(5 rows) 


8.4.4 访问 Hive 数据 


Hive 是 Hadoop 的 分 布 式 数 据 仓 库 框 架 , 支持 多 种 文件 格式 , 如 CSV. RC. ORC, Parquet 
PXF 的 Hive 插件 用 于 读 取 存 储 在 Hive 表 中 的 数据 。PXF 提供 两 种 方式 查询 Hive d: 
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通过 整合 PXF 与 HCatalog 直接 查询 。 
通过 外 部 表 查 询 。 


在 使 用 PXF 访问 Hive 前 ， 确 认 满足 以 下 前 提 条 件 : 


在 HAWQ 和 HDFS 集群 的 所 有 节点 上 ( Master. Segment, NameNode. DataNode ) 
安装 了 PXF HDFS 插件 。 

在 HAWQ 和 HDFS 集群 的 所 有 节点 上 安装 了 PXF Hive 插件 。 

如 果 配 置 了 Hadoop HA, PXF 也 必须 安装 在 所 有 运行 NameNode 服务 的 HDFS 节点 
"E 

所 有 PXF 节点 上 都 安装 了 Hive FP 38. 

集群 所 有 节点 上 都 安装 了 Hive JAR 文件 目录 和 conf 目录 。 

已 经 测试 了 PXF 访问 HDFS. 

在 集群 中 的 一 台 主 机 上 运行 Hive Metastore 服务 。 


€ 在 NameNode 上 的 hive-site.xml 文 件 中 设置 了 hive.metastore.uris 属性 。 
看 似 条 件 不 少 , 但 是 如 果 使 用 Ambari 安装 管理 HAWQ 集群 , 并 安装 了 Hadoop 相关 服务 ， 
则 所 有 这 些 前 置 条 件 都 已 自动 配置 好 ， 不 需要 任何 手动 操作 。 
1. PXF 支持 的 Hive 文件 格式 
PXF Hive 插件 支持 的 Hive 文件 格式 及 其 访问 这 些 格式 对 应 的 profile 如 表 8-4 所 示 。 
表 8-4 PXF Hive 文件 格式 及 profile 














文件 格式 描述 Profile 
TextFile TF, tab 或 空格 分 隔 的 平面 文件 格式 Hive、HiveText 
SequenceFile | 二 进 制 键 值 对 组 成 的 平面 文件 Hive 

RCFile 记录 由 键 值 对 组 成 的 列 数据 ， 具 有 行 高 压缩 率 Hive、HiveRC 


ORCFile Hive 
Parquet Hive 
Avro Hive 
2. 数据 类 型 映射 
为 了 在 HAWQ 中 表示 Hive 数据 ， 需 要 将 使 用 Hive 私有 数据 类 型 的 数据 值 映射 为 等 价 的 
HAWQ 类 型 值 。 表 8-5 是 对 Hive 私有 数据 类 型 的 映射 规则 汇总 。 
表 8-5 Hive 5 HAWQ 数据 类 型 映射 
Hive 数据 类 型 HAWQ 数据 类 型 Hive 数据 类 型 HAWQ 数据 类 型 

















tinyint int2 binary Bytea 





Timestamp | 








| bigint 
除 简单 类 型 外 ，Hive 还 支持 array, struct, map 等 复杂 数据 类 型 。 由 于 HAWQ 原生 不 支 
持 这 些 类 型 ，PXF 将 它们 统一 映射 为 text 类 型 。 可 以 创建 HAWQ 函数 或 使 用 应 用 程序 抽取 复 
杂 数 据 类 型 子 元 素 的 数据 。 
3. HAWQ 访问 Hive 表 的 示例 
CL) 准备 示例 数据 
EI 准备 数据 文件 ， 添 加 如 下 记录 ， 用 过 号 分 隔 字 段 。 


vi /tmp/pxf hive datafile.txt 
Prague,Jan,101,4875.33 
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Rome, Mar, 87,1557.39 
Bangalore, May, 317, 8936.99 
Beijing, Jul, 411,11600.67 

San Francisco, Sept, 156, 6846.34 
Paris, Nov, 159, 7134.56 

San Francisco, Jan,113,5397.89 
Prague, Dec, 333, 9894.77 
Bangalore, Jul, 271, 8320.55 
Beijing, Dec, 100, 4248.41 


€ 创建 文本 格式 的 Hive sales info. 


create database test; 

use test; 

create table sales_info (location string, month string, 
number of orders int, total_sales double) 
row format delimited fields terminated by ',' 


stored as textfile; 
€Z 向 sales info 表 装载 数据 。 
load data local inpath '/tmp/pxf_hive datafile.txt' into table sales_info; 
CXX04 Æi sales_info 表 数据 ， 验 证 装载 数据 成 功 。 
select * from sales info; 
BNO 确认 sales info RÆ HDFS 上 的 位 置 ， 在 创建 HAWQ 外 部 表 时 需要 用 到 该 信息 。 


describe extended sales_info; 


location:hdfs://mycluster/apps/hive/warehouse/test.db/sales_info 


(2) 使 用 PXF 和 HCatalog 查询 Hive 
HAWQ 可 以 获取 存储 在 HCatalog 中 的 元 数据 ， 通 过 HCatalog 直接 访问 Hive 表 ， 而 不 用 
关心 Hive 表 对 应 的 底层 文件 存储 格式 。HCatalog 建立 在 Hive metastore 之 上 ， 包 含 Hive 的 
DDL 语句 。 使 用 这 种 方式 的 好 处 是 : 


© 不 需要 知道 Hive 表 结 构 。 

e 不 需要 手动 输入 Hive 表 的 位 置 与 格式 信息 。 

€ 如果 表 的 元 数据 改变 ，HCatalog 自动 提供 更 新 后 的 元 数据 。 这 是 使 用 PXF 静态 外 部 
表 方式 无 法 做 到 的 。 


HAWQ 使 用 HCatalog 查询 Hive 表 的 示意 图 如 图 8-1 所 示 。 
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in-memory: 


pg. exttable 
pg. class... 





FA 8-1 HAWQ 通过 HCatalog 查询 Hive 表 


HAWQ 使 用 PXF 从 HCatalog 查询 表 的 元 数据 ， 然 后 用 查询 到 的 元 数据 创建 一 个 内 存 目 
录 表 。 如 果 一 个 查询 中 多 次 引用 了 同一 个 表 ， 内 存 目录 表 可 以 减少 对 外 部 HCatalog 的 调用 次 
数 。PXEF 使 用 内 存 目 录 表 的 元 数据 信息 查询 Hive 表 。 查 询 结束 后 ， 内 存 目 录 表 将 被 删除 。 

如 果 使 用 Ambari 安装 管理 HAWQ, 并 且 已 经 启动 了 Hive 服务 , 则 不 需要 任何 额外 配置 ， 
就 可 以 查询 Hive 表 。 


db1=# select * from hcatalog.test.sales info; 


location | month | number of orders | total sales 
-T-------------- *-------4------------------4------------- 
Prague | Jan | 101 | 4875.33 
Rome | Mar | 87 | 1557.39 
Bangalore | May | hbri | 8936.99 
Beijing | dul | 411 | 11600.67 
(10 rows) 


获取 Hive 表 的 字段 和 数据 类 型 映射 。 


dbl=# \d+ hcatalog.test.sales info; 
PXF Hive Table "test.sales info" 


Column | Type | Source type 
一 一 一 一 二 一 Doetie 
location | text | string 
month | text | string 
number_of_orders | int4 | int 
| 


total_sales float8 | double 


可 以 使 用 通配符 获取 所 有 Hive 库 表 的 信息 。 


\d+ hcatalog.test.*; 
\d+ hcatalog.*.*; 


还 可 以 使 用 pxf get item fields 函数 获得 Hive 表 的 描述 信息 。 该 函数 目前 仅 支 持 Hive 
profile。 
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db1=# select * from pxf get item fields('hive','test.sales info'); 


path | itemname | fieldname | fieldtype | sourcefieldtype 
------ 4------------4------------------4-----------4----------------- 
test | sales info | location | text | string 

test | sales info | month | text | string 

test | sales info | number of orders | int4 | int 

test | sales info | total sales | float8 | double 


(4 rows) 
pxf get item fields 函数 同样 也 支持 通配符 。 


select * from pxf get item fields('hive','test.*'); 


select * from pxf get item fields('hive','*.*'); 


(3) 查询 Hive 外 部 表 
使 用 外 部 表 方 式 需 要 标识 适当 的 profile. PXF Hive 插 件 支持 三 种 Hive 相 关 的 profile, Hive. 
HiveText 和 HiveRC。HiveText 和 HiveRC 分 别针 对 TEXT 和 RC 文件 格式 做 了 特别 优化 ， 而 
Hive profile 可 用 于 所 有 PXF 支持 的 Hive 文件 存储 类 型 。 当 底层 Hive 表 由 多 个 分 区 组 成 ， 并 
且 分 区 使 用 了 不 同 的 文件 格式 时 ， 需 要 使 用 Hive profile。 以 下 语法 创建 一 个 HAWQ 的 Hive 
外 部 表 : 
CREATE EXTERNAL TABLE <table name> 
( «column name» E RIDES [, -.-] | LIKE «other table» 
LOCATION ('pxf://<host>[:<port>] /<hive-db-name>.<hive-table-name> 
?PROFILE=Hive |HiveText | HiveRC [&DELIMITER=<delim>']) 
FORMAT 'CUSTOM|TEXT' (formatter='pxfwritable import' | delimiter='<delim>') 


CREATE EXTERNAL TABLE 语句 中 Hive 插 件 使 用 关键 字 和 相应 值 的 描述 如 表 8-6 所 示 。 


表 8-6 Hive 外 部 表 建 表 语 句 说 阴 





























<host>[:] HDFS NameNode 主机 名 、 端 口号 

<hive-db-name> Hive 数据 库 名 ， 如 果 忽 略 ， 默 认 是 defaults 

<hive-table-name> Hive 表 名 

PROFILE 必须 是 Hive、HiveText 或 HiveRC 之 一 

DELIMITER 指定 字段 分 隔 符 ， 必 须 是 单个 ascii 字符 或 相应 字符 的 
十 六 进 制 表示 

FORMAT (Hive profile) 必须 指定 为 CUSTOM ， 仅 支持 内 建 的 
pxfwritable_import formatter 

FORMAT (HiveText and HiveRC profiles) 必须 指定 为 TEXT， 并 再 次 指定 字段 分 隔 符 
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(D Hive Profile 

Hive profile 适用 于 任何 PXF 支持 的 Hive 文件 存储 格式 , 它 实 际 上 是 为 底层 文件 存储 类 型 
选择 最 优 的 Hive* profile。 

db1=# create external table salesinfo hiveprofile(location text, month text, 


num orders int, total sales float8) 


db1-# location ('pxf://hdp1:51200/test.sales_info?profile=hive') 
db1-# format 'custom' (formatter='pxfwritable import'); 
CREATE EXTERNAL TABLE 
db1=# 
db1=# select * from salesinfo_hiveprofile; 
location | month | num_orders | total_sales 
-T-------------- *-------4------------4------------- 
Prague | Jan | 101 | 4875.33 
Rome | Mar I 87 | 1557.39 
Bangalore | May | 317 | 8936.99 
Beijing | Jul | 411 I 11600.67 
(10 rows) 


注意 外 部 表 和 Heatalog 查询 计划 的 区 别 : 


gpadmin=# explain select * from salesinfo_hiveprofile; 
QUERY PLAN 
---- Gather Motion 24:1 (slicel; segments: 24) (cost=0.00..501.44 rows=1000000 
width=28) 
-> External Scan on salesinfo hiveprofile (cost=0.00..432.33 rows=41667 

width=28) 

Settings: default hash table bucket number-24 

Optimizer status: PQO version 1.684 

(4 rows) 


gpadmin=# explain select * from hcatalog.test.sales info; 
QUERY PLAN 


Gather Motion 1:1 (slicel; segments: 1) (cost=0.00..431.00 rows-1 width-28) 
-» External Scan on sales info (cost-0.00..431.00 rows-1 width-28) 

Settings: default hash table bucket number-24 

Optimizer status: PQO version 1.684 

(4 rows) 


外 部 表 查 询 使 用 了 全 部 24 个 虚拟 段 ， 而 Heatalog 查询 只 使 用 了 1 个 虚拟 段 ， 显 然 外 部 表 
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更 加 有 效 地 利用 了 资源 。 


@ HiveText Profile 
使 用 HiveText profile 时 , 必须 在 LOCATION 和 FORMAT 两 个 子 句 中 都 指定 分 隔 符 选 项 。 


db1=# create external table salesinfo hivetextprofile(location text, month text, 
num orders int, total sales float8) 
db1-# location 
('pxf://hdp1:51200/test.sales info?profile-hivetext&delimiter-, ') 
db1-# format 'text' (delimiter=e','); 
CREATE EXTERNAL TABLE 
dbl=# select * from salesinfo hivetextprofile where location-'Beijing'; 
location | month | num orders | total sales 
pueri veru pp EE pane lll lela aan ta! 
Beijing | Jul l 411 | 11600.67 
Beijing | Dec | 100 | 4248.41 


(2 rows) 

(8) HiveRC Profile 

建立 一 个 rcfile 格式 的 Hive 表 ， 并 插入 数据 。 

create table sales info rcfile (location string, month string, 
number_of orders int, total_sales double) 


row format delimited fields terminated by ',' 
stored as rcfile; 


insert into table sales info rcfile select * from sales info; 
在 HAWQ 中 查询 Hive 表 。 


db1=# create external table salesinfo hivercprofile(location text, month text, 
num orders int, total sales float8) 


db1-# location 
('pxf://hdp1:51200/test.sales info rcfile?profile=hivercédelimiter=, ') 

db1-# format 'text' (delimiter=e','); 

CREATE EXTERNAL TABLE 

db1=# 

db1=# select location, total sales from salesinfo hivercprofile; 
location | total sales 

Serer Ee Ea (eS a aes 

Prague | 4875.33 

Rome | 1557:39 

Bangalore | 8936.99 

Beijing | 11600.67 

(10 rows) 
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® 访问 Parquet 格式 的 Hive 表 

PXF Hive profile 支持 分 区 或 非 分 区 的 Parquet 存储 格式 。 建 立 一 个 Parquet 格式 的 Hive 表 ， 
并 插入 数据 。 

create table sales info parquet (location string, month string, 


number of orders int, total sales double) 


stored as parquet; 


insert into sales info parquet select * from sales info; 
在 HAWQ 中 查询 Hive 表 。 


dbl=# create external table salesinfo parquet (location text, month text, 
num orders int, total sales floats) 


db1-# location ('pxf://hdp1:51200/test.sales info parquet ?profile=hive') 


db1-# format 'custom' (formatter-'pxfwritable import'); 
CREATE EXTERNAL TABLE 
db1=# 
db1=# select * from salesinfo parquet; 

location | month | num orders | total sales 
-T-------------- *-------4------------4------------- 
Prague | Jan | 101 | 4875.33 
Rome | Mar | 87 | 1557.39 
Bangalore | May | zhiu || 8936.99 
Beijing | Jul | 411 I 11600.67 
(10 rows) 


(4) 复杂 数据 类 型 


ED 准备 数据 文件 ， 添 加 如 下 记录 ， 用 过 号 分 隔 字段 ， 第 三 个 字段 是 array 类 型 ， 第 四 个 
字段 是 map 类 型 。 


vi /tmp/pxf_hive_complex.txt 

3, Prague, 1%2%3, zone: euro%status:up 
89,Rome, 4%5%6, zone: euro 

400, Bangalore, 7%8%9, zone: apac%status:pending 
183, Beijing, 0%1%2, zone: apac 

94, Sacramento, 3%4%5, zone: noam%status:down 
101, Paris, 6%7%8, zone: euro%status:up 

56, Frankfurt, 930%1, zone:euro 

202, Jakarta, 2%3%4, zone: apac%status:up 
313, Sydney, 5%6%7, zone: apac%status:pending 
76,Atlanta, 8%9%0, zone: noam%status: down 


Ge? 建立 Hive 表 。 
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create table table complextypes( index int, name string, intarray array<int>, 


propmap map<string, string») 


row format delimited fields terminated by ',' 
collection items terminated by '$' 

map keys terminated by ':' 

stored as textfile; 


GE} 向 Hive 表 装载 数 据 。 


load data local inpath '/tmp/pxf hive complex.txt' into table 


table complextypes; 


CX 查询 Hive 表 ， 验 证 数据 正确 导入 。 


select * from table complextypes; 


GH 在 HAWQ 中 建立 Hive 外 部 表 并 查询 数据 。 


db1=# create external table complextypes hiveprofile(index int, name text, 


intarray text, propmap text) 


db1-# location 


('pxf://hdp1:51200/test.table complextypes?profile-hive') 


可 


db1-# format 'custom' (formatter-'pxfwritable import'); 
CREATE EXTERNAL TABLE 
db1=# select * from complextypes hiveprofile; 


index | name | intarray | propmap 
------- +------------+----------+------------------------------------ 
3 | Prague | [1,2,3] | {"zone":"euro","status":"up"} 
89 | Rome | [4,5,6] | {"zone":"euro"} 
400 | Bangalore | [7,8,9] | {"zone":"apac","status":"pending"} 
183 | Beijing | [0,1,2] | {"zone":"apac"} 





(10 rows) 
可 以 看 到 ， 复 杂 数 据 类 型 都 被 简单 地 转化 为 HAWQ 的 TEXT 类 型 。 
(5) 访问 Hive 分 区 表 
PXF Hive 插件 支持 Hive 的 分 区 特性 与 目录 结构 ， 并 且 提供 了 所 谓 的 分 区 过 滤 下 推 功能 ， 
以 利用 Hive 的 分 区 消除 特性 ， 以 降低 网 络 流量 和 IO 负载 。 PXF 的 分 区 过 滤 下 推 与 MySQL 





的 索引 条 件 下 推 (Index Condition Pushdown，ICP) 的 概念 类 似 ， 都 是 将 过 滤 条 件 下 推 至 更 底 


层 
分 


的 存储 以 提高 性 能 。 为 了 利用 PXF 的 分 区 过 滤 下 推 功能 ， 查 询 的 where 子 句 中 应 该 只 使 用 





区 字段 。 和 否则 ，PXEF 忽略 分 区 过 滤 ， 过 滤 将 在 HAWQ 端 执行 ， 影 响 查 询 性 能 。PXEF 的 Hive 


插件 只 对 分 区 键 执行 过 滤 下 推 。 





分 区 过 滤 下 推 默认 是 启用 的 : 


dbl=# show pxf enable filter pushdown; 
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pxf enable filter pushdown 


(1 row) 
€D) 使 用 Hive Profile 访问 同 构 分 区 数据 。 

创建 Hive 表 并 装载 数据 。 

create table sales part (name string, type string, supplier key int, price 
double) 


partitioned by (delivery state string, delivery city string) 


row format delimited fields terminated by ','; 


insert into table sales part partition(delivery state - 'CALIFORNIA', 
delivery city - 'Fresno') 

values ('block', 'widget', 33, 15.17); 

insert into table sales part partition(delivery state 


'"CALIFORNIA', 
delivery city - 'Sacramento') 

values ('cube', 'widget', 11, 1.17); 

insert into table sales part partition(delivery state = 'NEVADA', delivery city 


"Reno') 
values ('dowel', 'widget', 51, 31.82); 
insert into table sales part partition(delivery state = 'NEVADA', delivery city 


"Las Vegas!) 
values ('px49', 'pipe', 52, 99.82); 


查询 sales part 4. 


select * from sales part; 


检查 sales part YE HDFS 上 的 目录 结构 。 


sudo -u hdfs hdfs dfs -ls -R /apps/hive/warehouse/test.db/sales part 


建立 PXF 外 部 表 并 查询 数据 。 


dbl=# create external table pxf sales part( 


db1 (# item_name text, item_type text, 

db1 (# supplier key integer, item price double precision, 

db1 (# delivery state text, delivery city text) 

db1-# location ('pxf://hdp1:51200/test.sales_part?profile=hive') 
db1-# format 'custom' (formatter-'pxfwritable import'); 


CREATE EXTERNAL TABLE 

dbl=# select * from pxf sales part; 

item name | item type | supplier key | item price | delivery state 
delivery city 
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block | widget | 33 | 15.17 | CALIFORNIA |Fresno 
dowel | widget | 51 | 31.82 | NEVADA |Reno 
cube | widget | 11 | dry | CALIFORNIA |Sacramento 
px49 | pipe | 52 | 99.82 | NEVADA |Las Vegas 
(4 rows) 


执行 一 个 非 过 滤 下 推 的 查询 。 

db1=# select * from pxf_sales_part where delivery city = 'Sacramento' and 
item_name = 'cube'; 

item_name | item_type | supplier_key | item_price | delivery state 


delivery city 


cube | widget | el 1.17 | CALIFORNIA | Sacramento 


该 查询 会 利用 Hive 过 滤 delivery_city='Sacramento' 的 分 区 ， 但 item name 上 的 过 滤 条 件 不 
会 下 推 至 Hive, 因为 它 不 是 分 区 列 。 当 所 有 Sacramento 分 区 的 数据 传 到 HAWQ 后 , 在 HAWQ 
端 执行 item_name 的 过 滤 。 
执行 一 个 过 滤 下 推 的 查询 。 
dbl=# select * from pxf sales part where delivery state = 'CALIFORNIA'; 
item name | item type | supplier key | item price | delivery state | 


delivery city 


----------- +-----------+--------------+------------+----------------+------ 
cube | widget | all || 1.17 | CALIFORNIA | Sacramento 
block | widget | 338] 15.17 | CALIFORNIA | Fresno 


(2 rows) 
€XX302 使 用 Hive Profile 访问 异 构 分 区 数据 。 
-个 Hive 表 中 的 不 同 分 区 可 能 有 不 同 的 存储 格式 ，PXF Hive profile 也 支持 这 种 情况 。 
建立 Hive 表 。 
create external table hive multiformpart( location string, month string, 
number of orders int, total sales double) 


partitioned by( year string ) 
row format delimited fields terminated by ','; 


id F sales info 和 sales info rcfile 表 在 HDFS 中 的 位 置 。 


describe extended sales info; 
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location:hdfs://mycluster/apps/hive/warehouse/test.db/sales_info 


describe extended sales info rcfile; 
location:hdfs://mycluster/apps/hive/warehouse/test.db/sales info rcfile 


给 hive multiformpart 表 增 加 两 个 分 区 ， 位 置 分 别 指向 sales info 和 sales info rcfile。 


alter table hive multiformpart add partition (year = '2013') 

location 'hdfs://mycluster/apps/hive/warehouse/test.db/sales info'; 

alter table hive multiformpart add partition (year = '2016') 

location 'hdfs://mycluster/apps/hive/warehouse/test.db/sales info rcfile'; 


显 式 标识 与 sales info rcfile 表 对 应 分 区 的 文件 格式 。 
alter table hive_multiformpart partition (year='2016') set fileformat rcfile; 


此 时 查看 两 个 分 区 的 存储 格式 , sales info 表 对 应 的 分 区 使 用 的 是 默认 的 TEXTFILE 格式 ， 
而 sales_info_rcfile 表 对 应 的 分 区 是 RCFILE 格式 。 


hive> show partitions hive_multiformpart; 

OK 

year=2013 

year=2016 

Time taken: 0.553 seconds, Fetched: 2 row(s) 

hive> desc formatted hive multiformpart partition (year=2013) ; 

InputFormat: org.apache.hadoop.mapred. TextInputFormat 

OutputFormat: 
org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat 


hive» desc formatted hive multiformpart partition(year-2016); 


InputFormat: org.apache.hadoop.hive.ql.io.RCFileInputFormat 
OutputFormat: org.apache.hadoop.hive.ql.io.RCFileOutputFormat 


使 用 Hcatalog 方式 查询 hive_multiformpart 表 。 


dbi-£ select * from hcatalog.test.hive multiformpart; 


location | month | number of orders | total sales | year 
-T-------------- 4-------4------------------4-------------4------ 
Prague [| Dec | 333 | 9894.77 | 2013 
Bangalore | Jul | 2 | 8320.55 | 2013 
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Beijing | Dec | 100 | 4248.41 | 2013 


(20 rows) 
使 用 外 部 表 方 式 查 询 hive_multiformpart X o 


db1=# create external table pxf_multiformpart (location text, month text, 


num orders int, total sales float8, year text) 


db1-# location 
('pxf://hdp1:51200/test.hive multiformpart?profile-hive') 
db1-# format 'custom' (formatter-'pxfwritable import'); 


CREATE EXTERNAL TABLE 
db1=# select * from pxf multiformpart; 


location | month | num orders | total sales | year 
cocco qa ICM MEL 
Prague | Dec | 393. | 9894.77 | 2013 
Bangalore | Jul | 271 I 8320.55 | 2013 
Beijing | Dec | 100 | 4248.41 | 2013 
(20 rows) 


db1=# select sum(num orders) from pxf multiformpart where month-'Dec' and 
year='2013'; 
sum 


8.4.5 访问 JSON 数据 


PXF 的 JSON 插件 用 于 读 取 存储 在 HDFS 上 的 JSON 文 件 ,支持 N 层 嵌 套 .为 了 使 用 HAWQ 
访问 ISON 数据 ， 必 须 将 ISON 文件 存储 在 HDFS 上 ,并 从 HDFS 数据 存储 创建 外 部 表 。 在 使 
用 PXF 访问 ISON 文件 前 ， 确 认 满 足以 下 前 提 条 件 : 

© 已 经 在 集群 所 有 节点 上 安装 了 HDFS 插件 (Ambari 会 自动 安装 ) 。 

e 已 经 在 集群 所 有 节点 上 安装 了 ISON 插件 (Ambari 会 自动 安装 ) 。 

e 已 经 测试 了 PXF 对 HDFS 的 访问 。 


1. PXF 与 JSON 文件 协同 工作 


JSON 是 一 种 基于 文本 的 数据 交换 格式 ， 其 数据 通常 存储 在 一 个 以 .json 为 后 级 的 文件 中 。 
-个 .json 文件 包含 一 组 对 象 的 集合 , 一 个 ISON 对 象 是 一 组 无 序 的 名 / 值 对 ， 值 可 以 是 字符 串 、 
数字 、true、false、null， 或 者 是 一 个 对 象 或 数组 。 对 象 和 数组 可 以 嵌 套 。 下 面 是 一 个 JSON 数 
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据 文件 的 内 容 : 
{ 
"created at":"MonSep3004:04:53+00002013", 
"id str":"384529256681725952", 
"user": { 
"id":31424214, 
"location":"COLUMBUS" 


by 
"coordinates" :null 


(1) JSON 到 HAWQ 的 数据 类 型 映射 
为 了 在 HAWQ 中 表示 ISON 数据 ， 需 要 将 使 用 私有 数据 类 型 的 ISON 值 映射 为 等 价 的 
HAWQ 数据 类 型 值 。 表 8-7 是 对 ISON 数据 类 型 映射 规则 的 总 结 。 


表 8-7 JSON 与 HAWQ 数据 类 型 映射 


JSON 数据 类 型 HAWQ 数据 类 型 


私有 类 型 (integer float, string, | 使 用 对 应 的 HAWQ 内 建 数据 类 型 (integer、real、double precision, char, 
boolean, null) varchar, text, boolean) 


(OFA EA FUERTE BORA LR MFE 
使 用 AAR eRe A A MR M e 


(2) JSON 文件 读 模式 

PXF 的 JSON 插件 用 两 个 模式 之 一 读 取 数 据 。 默 认 模 式 是 每 行 一 个 完整 的 JSON 记录 , 同 
时 也 支持 对 多 行 构成 的 ISON 记录 的 读 操作 。 下 面 是 每 种 读 模 式 的 例子 。 示 例 schema 包含 数 
据 列 的 名 称 和 数据 类 型 如 下 : 





€ "created_at": text 

€ "id str": text 

€ "user": object ( "id": integer, "location": text) 
e 


"coordinates": object ("type": text, "values": array (integer) ) 
每 行 一 条 JSON 记录 的 读 模式 : 


("created at":"FriJun0722:45:03400002013","id str":"343136551322136576","us 
er":("id":395504494,"location":"NearCornwall"],"coordinates":("type":"Point"," 
values": [ 6, 50 ]}}, 

("created at":"FriJun0722:45:02400002013","id str":"343136547115253761","us 
er":("id":26643566,"location":"Austin,Texas"), "coordinates": null], 

Í"created at":"FriJun0722:45:02400002013","id str":"343136547136233472","us 
er": {"id":287819058,"location":""}, "coordinates": null} 


多 行 JSON 记录 读 模 式 : 
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Soot 
{ 
"record obj":{ 
"created at":"MonSep3004:04:53+00002013", 
"id str":"384529256681725952", 
"user": 
"id":31424214, 
"location":"COLUMBUS" 
}, 
"coordinates" :null 
) 
"record obj":( 
"created at":"MonSep3004:04:54400002013", 
"id str":"384529260872228864", 
"user": { 
"id":67600981, 
"location": "KryberWorld" 
}, 
"coordinates": { 
"type"; "Point", 
"values": [ 
8, 
52 


下 面 演示 如 何 从 PXF 的 ISON 外 部 表 查 询 示 例 数据 。 
2. 将 JSON 数据 装载 到 HDFS 


PXF 的 JSON 插件 读 取 存储 在 HDFS 中 的 ISON 文件 ,因此 在 HAWQ 查询 ISON 数据 前 ， 
必须 先 将 ISON 文件 传 到 HDFS 上 。 将 前 面 的 单行 和 多 行 JSON 记录 分 别 保存 到 singlelinejson 
和 multiline,json 文件 中 ， 并 且 确 保 ISON 文件 中 没有 空 行 ， 然 后 将 文件 传 到 HDFS。 

su - hdfs 

hdfs dfs -mkdir /user/data 

hdfs dfs -chown -R gpadmin:gpadmin /user/data 

hdfs dfs -put singleline.json /user/data 

hdfs dfs -put multiline.json /user/data 
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文件 传 到 HDFS 后 ， 就 可 以 通过 HAWQ 查询 JSON 数据 。 
3. 查询 外 部 的 JSON 数据 
使 用 下 面 的 语法 创建 一 个 表示 JSON 数据 的 HAWQ 外 部 表 。 


CREATE EXTERNAL TABLE «table name» 
( «column name» «data type» [, ...] | LIKE «other table» ) 
LOCATION 
( 'pxf://«host»[:«port»]/«path-to-data»?PROFILE-Json[&IDENTIFIER-«value»]' ) 
FORMAT 'CUSTOM' ( FORMATTER-'pxfwritable import' ); 


CREATE EXTERNAL TABLE 语句 中 使 用 的 各 个 关键 字 和 相应 值 的 描述 如 表 8-8 所 示 。 
表 8-8 JSON 外 部 表 建 表 语句 说 阴 





关键 字 值 
<host>[:<port>] HDFS NameNode 主机 名 、 端 口 
PROFILE PROFILE 关键 字 必须 指定 为 ISON 


IDENTIFIER RAH ISON 文件 是 多 行 记录 格式 时 ，LOCATION 字符 串 中 才 包 含 IDENTIFIER 关键 
字 及 其 对 应 的 值 。<value> 应 该 标识 用 以 确定 一 个 返回 的 ISON 对 象 成 员 名 称 ， 例 如 上 
面 的 示例 中 ， 应 该 指定 &IDENTIFIER=created_at 


FORMAT FORMAT 子 句 必须 指定 为 CUSTOM 
FORMATTER JSON 'CUSTOM' 格 式 只 支持 内 建 的 'pxfwritable_import' 格 式 属性 








创建 一 个 基于 单行 记录 的 JSON 外 部 表 并 查询 。 


dbl=# create external table sample json singleline tbl( 
dbl (# created at text, 

dbl(# id_str text, 

dbl(f text text, 

dbl (#  "user.id" integer, 

db1(#  "user.location" text, 


dbl (#  "coordinates.values[0]" integer, 
dbl(#  "coordinates.values[1]" integer 
db1(# ) 


db1-# location ('pxf://hdp1:51200/user/data/singleline.json?profile=json"') 
db1-# format 'custom' (formatter-'pxfwritable import"); 
CREATE EXTERNAL TABLE 
db1=# select "user.id", "user.location", "coordinates.values[0]", 
"coordinates.values[1]" 
dbl-# from sample json singleline tbl; 
user.id | user.location | coordinates.values[0] | coordinates.values[1] 


395504494 | NearCornwall | 6 | 50 
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26643566 | Austin,Texas | | 
287819058 | | | 
(3 rows) 


原来 JSON 中 的 嵌 套 数据 都 被 平面 化 展开 。 在 查询 结果 中 ， 使 用 . WARE user 对 象 
(user.id 和 user.location) ， 使 用 [] 访问 coordinates.values 数组 的 元 素 (coordinates.values[0] 
All coordinates.values[1]) 。 


多 行 记录 的 ISON 外 部 表 与 单行 的 类 似 ， 只 是 需要 指定 identifier， 指 定 标识 记录 的 键 。 


dbl=# create external table sample json multiline tbl( 

dbl(f created at text, 

dbl(f id str text, 

dbl(# text text, 

dbl(#  "user.id" integer, 

db1 (# "user.location" text, 

db1 (# "coordinates.values[0]" integer, 

db1 (# "coordinates.values[1]" integer 

dbl(# ) 

db1-# 
location ('pxf://hdp1:51200/user/data/multiline.json?profile=json&identifier=cr 
eated_at') 

db1-# format 'custom' (formatter-'pxfwritable import'); 

CREATE EXTERNAL TABLE 

dbl=# select "user.id", "user.location", "coordinates.values[0]", 
"coordinates.values[1]" 

db1-# from sample json multiline tbl; 


user.id | user.location | coordinates.values[0] | coordinates.values[1] 
---------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 ~ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
31424214 | COLUMBUS | 

67600981 | KryberWorld | 8 | 52 

(2 rows) 


8.4.6 向 HDFS 中 写 入 数据 


PXF 只 能 向 HDFS 文件 中 写 入 数据 ， 而 对 Hive、HBase 和 JSON 等 外 部 数据 都 是 只 读 的 。 
在 使 用 PXF 向 HDFS 文件 写 数据 前 ， 确 认 已 经 在 集群 所 有 节点 上 安装 了 PXF HDFS 插件 
(Ambari 会 自动 安装 ) ， 并 授予 了 HAWQ 用 户 ( 典 型 的 是 gpadmin) 对 HDFS 文件 相应 的 读 
写 权 限 。 
1. 写 PXF 外 部 表 
PXF HDFS 插件 支持 两 种 可 写 的 profile: HdfsTextSimple 和 SequenceWritable。 创 建 HAWQ 
可 写 外 部 表 的 语法 如 下 : 


CREATE WRITABLE EXTERNAL TABLE <table name> 
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( «column name» «data type» [, ...] | LIKE «other table» ) 
LOCATION ('pxf://«host»[:«port»]/«path-to-hdfs-file» 
?PROFILE-HdfsTextSimple|SequenceWritable[&«custom-option»-«value»[...]]' 


FORMAT '[TEXT|CSV|CUSTOM]' (<formatting-properties>) ; 
CREATE EXTERNAL TABLE 语句 中 使 用 的 各 个 关键 字 和 相应 值 的 描述 如 表 8-9 所 示 。 
表 8-9 可 写 HDFS 外 部 表 建 表 语 句 说 明 














关键 字 值 

<host>[:<port>] HDFS NameNode 主机 名 、 端 口 

<path-to-hdfs-file> HDFS 文件 路 径 

PROFILE PROFILE 关键 字 指 定 为 HdfsTextSimple 或 SequenceWritable 
<custom-option> 与 特定 PROFILE 对 应 的 用 户 自 定义 选项 


FORMAT 'TEXT 当 <path-to-hdfs-file> 指 向 一 个 单行 固定 分 隔 符 的 平面 文件 时 ， 使 用 该 关键 字 


当 <path-to-hdfs-file> 指 向 一 个 单行 或 多 行 的 逗号 分 隔 值 (CSV) 平面 文件 
时 ， 使 用 该 关键 字 
SequenceWritable profile 使 用 该 关键 字 。SequenceWritable 'CUSTOM' 格 式 


仅 支 持 内 建 的 formatter='pxfwritable_export( 写 ) 和 formatter='pxfwritable_ 
import( 读 ) 格式 属性 





FORMAT 'CSV' 


FORMAT 'CUSTOM' 





2. 定制 选项 
HdfsTextSimple 和 SequenceWritable profile 支持 表 8-10 所 示 的 定制 选项 。 


表 8-10 可 写 外 部 表 建 表 定制 选项 





选项 值 描 述 Profile 


COMPRESSION CODEC | 压缩 编 解 码 对 应 的 Java 类 名 。 如 果 不 提供 ， 不 会 执行 数 | HdfsTextSimple、 
据 压缩 。 支 持 的 压缩 编 解码 包括 org.apache.hadoop.io. SequenceWritable 
compress.DefaultCodec 和 org.apache.hadoop.io.compress. 








BZip2Codec 
COMPRESSION CODEC org.apache.hadoop.io.compress.GzipCodec HdfsTextSimple 
COMPRESSION TYPE 使 用 的 压缩 类 型 ， 支 持 的 值 为 RECORD (默认 ) 或 | HdfsTextSimple, 
BLOCK SequenceWritable 
DATA-SCHEMA 写 入 器 的 序列 化 / 反 序 列 化 类 名 。 类 所 在 的 jar 文件 必须 | SequenceWritable 


在 PXF classpath 中 。 该 选项 被 SequenceWritable profile 
使 用 ， 并 且 没有 默认 值 








THREAD-SAFE 该 Boolean 值 决定 表 查 询 是 否 运行 在 多 线程 模式 ， 默 认 | HdfsTextSimple、 
值 为 TRUE SequenceWritable 
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3. 使 用 HdfsTextSimple Profile 写 数 据 

HdfsTextSimple Profile 用 于 向 单行 每 条 记录 Cz PHOT TO 的 固定 分 隔 符 平面 文件 写 
数据 。 使 用 HdfsTextSimple Profile 建立 可 写 表 时 ， 可 以 选择 记录 或 块 压缩 ， 支 持 以 下 压缩 编 
解码 方法 : 


@ org.apache.hadoop.io.compress.DefaultCodec 





€  org.apache.hadoop.io.compress.GzipCodec 
@  orgapache.hadoop.io.compress.BZip2Codec 


HdfsTextSimple profile 支持 的 格式 属性 为 "delimiter, 标识 字段 分 隔 符 , 默认 值 为 逗号 (,) 。 


(1) 创建 可 写 外 部 表 ， 数 据 写 到 HDFS 的 /data/pxf examples/pxfwritable hdfs textsimplel 
目录 中 ， 字 段 分 隔 符 为 逗号 。 
create writable external table pxf hdfs writabletbl 1(location text, month text, 
num orders int, total sales float8) 
location('pxf://hdp1:51200/data/pxf examples/pxfwritable hdfs textsimplel?p 
rofile-hdfstextsimple') format 'text' (delimiter=e','); 


(2) 向 pxf. hdfs writabletbl 1 表 插入 数据 。 


insert into pxf hdfs writabletbl 1 values ( 'Frankfurt', 'Mar', 777, 3956.98 ); 

insert into pxf hdfs writabletbl 1 values ( 'Cleveland', 'Oct', 3812, 
96645.37 ); 

insert into pxf hdfs writabletbl 1 select * from pxf hdfs textsimple; 


(3) 查看 HDFS 文件 的 内 容 。 


[hdfs@hdp1 -]$ hdfs dfs -cat /data/pxf examples/pxfwritable hdfs textsimplel/* 
Frankfurt,Mar,777,3956.98 
Cleveland,Oct,3812,96645.37 
Prague, Jan, 101, 4875.33 
Rome, Mar, 87,1557.39 
Bangalore, May, 317, 8936.99 
Beijing, Jul, 411,11600.67 
[hdfs@hdp1 ~]$ hdfs dfs -ls /data/pxf examples/pxfwritable hdfs textsimplel 
Found 3 items 
-rw-r--r-- 3 pxf gpadmin 26 2017-03-22 10:45 
/data/pxf examples/pxfwritable hdfs textsimplel/236002 0 
-rw-r--r-- 3 pxf gpadmin 28 2017-03-22 10:45 
/data/pxf examples/pxfwritable hdfs textsimple1/236003 0 
-rw-r--r-- 3 pxf gpadmin 94 2017-03-22 10:46 
/data/pxf examples/pxfwritable hdfs textsimplel1/236004 15 
[hdfs@hdp1 ~]$ hdfs dfs -cat 
/data/pxf examples/pxfwritable hdfs_textsimple1/236002_0 
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Frankfurt, Mar, 777, 3956.98 
[hdfsGhdpl ~]$ hdfs dfs -cat 
/data/pxf examples/pxfwritable hdfs_textsimple1/236003_0 
Cleveland,Oct,3812,96645.37 
[hdfsGhdpl -]$ hdfs dfs -cat 
/data/pxf examples/pxfwritable hdfs textsimple1/236004 15 
Prague,Jan,101,4875.33 
Rome,Mar,87,1557.39 
Bangalore,May,317,8936.99 
Beijing,Jul,411,11600.67 
[hdfs@hdp1 ~]$ 


可 以 看 到 ,一 共 写 入 了 6 条 记录 ， 生 成 了 3 个 文件 。 其 中 两 个 文件 各 有 1 条 记录 ， 另 外 一 
个 文件 中 有 4 条 记录 ， 记 录 以 逗号 作为 字段 分 隔 符 。 


(4) 查询 可 写 外 部 表 。 
HAWQ 不 支持 对 可 写 外 部 表 的 查询 。 为 了 查询 可 写 外 部 表 的 数据 ， 需 要 建立 一 个 可 读 外 
部 表 ， 指 向 HDFS 的 相应 文件 。 


dbl=# select * from pxf hdfs writabletbl 1; 

ERROR: External scan error: It is not possible to read from a WRITABLE external 
table. Create the table as READABLE instead. (CTranslatorDXLToPlStmt.cpp:1041) 

db1=# create external table pxf hdfs textsimple rl(location text, month text, 
num orders int, total sales float8) 

db1-# location 
('pxf://hdp1:51200/data/pxf examples/pxfwritable hdfs textsimplel?profile-hdfs 
textsimple') 

db1-# format 'csv'; 

CREATE EXTERNAL TABLE 

dbl=# select * from pxf hdfs textsimple r1; 


location | month | num orders | total sales 
----------- 4-------4------------4------------- 
Cleveland | Oct | 3812 | 96645.37 
Frankfurt | Mar | SET) | 3956.98 
Prague | Jan | 101 | 4875.33 
Rome | Mar | 87 | 1557.39 
Bangalore | May | silt) || 8936.99 
Beijing | Jul | 411 1 11600.67 
(6 rows) 





(5) 建立 一 个 使 用 Gzip 压缩 ， 并 用 冒号 CO 做 字段 分 隔 符 的 可 写 外 部 表 ， 注 意 类 名 区 
分 大 小 写 。 


create writable external table pxf hdfs writabletbl 2 (location text, month text, 
num orders int, total sales floats) 
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location 
('pxf://hdp1:51200/data/pxf examples/pxfwritable hdfs textsimple2?profile-hdfs 
textsimple&compression codec-org.apache.hadoop.io.compress.GzipCodec') 

format 'text' (delimiter-e':'); 


(6) 插入 数据 。 


insert into pxf hdfs writabletbl 2 values ( 'Frankfurt', 'Mar', 777, 3956.98 ) 
insert into pxf hdfs writabletbl 2 values ( 'Cleveland', 'Oct', 3812, 
96645.37 ); 


(7) 使 用 -text 参数 查看 压缩 的 数据 。 


[hdfsGhdpl ~]$ hdfs dfs -text 

/data/pxf examples/pxfwritable hdfs textsimple2/* 
Frankfurt:Mar:777:3956.98 
Cleveland:0ct:3812:96645.37 
[hdfsQhdpl ~]$ 


可 以 看 到 刚 插 入 的 两 条 记录 ， 记 录 以 冒号 作为 字段 分 隔 符 。 





PT) 小 结 

HAWQ 支持 SELECT, INSERT 语句 ， 不 支持 UPDATE, DELETE 语句 。 向 HAWQ 表 装 
载 数据 的 常用 方法 有 gpfdist 外 部 表 、Web 外 部 表 、hawq load 命令 行 工具 、COPY SQL 命令 等 。 
其 中 ，gpfdist 是 HAWQ 提供 的 一 种 文件 服务 器 ， 它 利用 HAWQ 系统 中 的 所 有 Segment 并 行 
读 写 本 地 文件 。 向 HAWQ 表 中 导入 大 量 数据 后 , 应 该 执行 ANALYZE SQL 命令 , 为 查询 优化 
器 更 新 系统 统计 信息 。 通 过 PXF 扩展 框架 ，HAWQ 可 以 访问 HDFS、Hive、JSON 等 外 部 数 
据 。 使 用 Ambari 安装 HAWQ 时 ， 默 认 安 装 PXF 服务 ， 不 需要 额外 手动 配置 。 
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HAWQ 支持 用 户 自 定义 函数 (user-defined functions, UDF) ， 还 支持 给 HAWQ 的 内 部 函 
数 起 别名 。 编 写 UDF 的 语言 言 可 以 是 SQL. C. Java. Perl, Python, R 和 pgSQL， 其 中 除 SQL 
和 C 是 HAWQ 的 内 建 语言 ， 其 他 语言 通常 被 称 为 过 程 语言 PLs) ， 支 持 过 程 语言 编程 是 对 
HAWQ 核心 的 功能 性 扩展 。 本 章 主要 研究 HAWQ 内 建 的 SQL 语言 函数 和 PL/pgSQL 函数 编 
程 。 为 了 便于 说 明 ， 执 行 下 面 的 SQL 语句 创建 一 个 名 为 channel 的 示例 表 ， 并 生成 一 些 数 据 。 
后 面 定义 的 函数 大 都 以 操作 channel 表 为 例 。 
create table channel ( 
id int not null, 
cname varchar(200) not null, 


parent id int not null); 


insert into channel values 
(13,'131',-1), (14,'tv580',-1), (15, "生活 580',-1), 
(16, ' 左 上 幻灯 片 ',13)， (17, fü, 14), (8, EA fish", 17); 


analyze channel; 


HAWQ 内 建 SQL 语言 


默认 时 , 在 HAWQ 的 所 有 数据 库 中 都 可 以 使 用 SQL 和 C 语言 编写 用 户 自 定义 函数 。 SQL 
函数 中 可 执行 任意 条 数 的 SQL 语句 。 在 SQL 函数 体 中 , 每 条 SQL 语句 必须 以 分 号 (;) 分 隔 。 
SQL 函数 可 以 返回 void 或 返回 return 语句 指定 类 型 的 数据 。 由 于 HAWQ 只 有 函数 而 没有 存储 
过 程 的 概念 ，returns void 可 用 来 模拟 没有 返回 值 的 存储 过 程 。 所 有 非 returns void 函数 的 最 后 
- 句 SQL 必须 是 返回 指定 类 型 的 SELECT 语句 ， 函 数 返回 最 后 一 条 查询 语句 的 结果 ， 可 以 是 
单行 或 多 行 结果 集 。 下 面 是 几 个 SQL 函数 的 例子 。 


create function fn_count_channel() returns bigint as $$ 
































select count(*) from channel; 


$$ language sql; 
该 函数 没有 参数 ， 并 返回 channel 表 的 记录 数 ， 函 数 调用 结果 如 下 : 


dbi-£ select fn count channel(); 
fn count channel 


(1 row) 
修改 上 面 定义 的 函数 : 


create or replace function fn_count_channel() returns bigint as $$ 
select count(*) from channel; 
select count(*) from channel where parent_id=-1; 


$$ language sql; 

该 函数 体内 执行 了 两 条 查询 语句 。 在 函数 参数 和 返回 值 的 定义 没有 变化 时 ， 可 以 使 用 
CREATE OR REPLAC 重新 定义 函数 体 ， 该 语法 与 Oracle 类 似 。 如 果 函 数 参数 或 返回 值 的 定 
义 发 生变 化 ， 必 须 先 删除 再 重建 函数 。 函 数 返回 最 后 一 条 查询 语句 的 结果 ， 即 parent_id=-1 的 
记录 数 ， 调 用 结果 如 下 : 


db1=# select fn count channel(); 





fn count channel 


(1 row) 


再 次 修改 fn. count. channel) ER : 


create or replace function fn count channel() returns bigint as $$ 
select count(*) from channel; 
create table tl (a int); 
drop table t1; 
select count(*) from channel where parent id--1; 
$$ language sql; 


函数 体 中 也 能 执行 DDL 语句 ， 调 用 结果 和 前 一 个 的 函数 相同 。 
改变 负 count_channel0 函 数 的 返回 值 类 型 ， 必 须 先 删除 再 重建 ， 不 能 使 用 CREATE OR 
REPLACE 语法 。 


db1=# create or replace function fn count channel() returns void as $$ 
db1$# $$ language sql; 

ERROR: cannot change return type of existing function 

HINT: Use DROP FUNCTION first. 

db1=# select fn count channel(); 

fn count channel 
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(1 row) 


db1=# drop function fn count channel(); 

DROP FUNCTION 

db1=# create or replace function fn count channel() returns void as $$ 
db1$# $$ language sql; 

CREATE FUNCTION 

db1=# select fn count channel(); 

fn count channel 


(1 row) 


该 函数 没有 返回 值 ， 而 且 函 数 体内 没有 任何 SQL 语句 。 


J.Z PL/pgSQL Hi 


SQL 是 关系 数据 库 使 用 的 查询 语言 ， 其 最 大 特点 是 简单 易 用 ， 但 主要 问题 是 每 条 SQL 语 
句 必须 由 数据 库 服务 器 独立 执行 ,而且 缺 少 必要 的 变量 定义 、 流程 控制 等 编程 手段 。 过 程 语言 
解决 的 就 是 这 个 问题 顾名思义, PL/pgSQL 以 PostgreSQL 作为 编程 语言 , 自动 在 所 有 HAWQ 
数据 库 中 安装 。 它 能 实现 以 下 功能 : 

€ > plpgsql BAK. 

€ 为 SQL 语言 增加 控制 结构 。 

@ 执行 复杂 计算 。 

€ ”继承 所 有 PostgreSQL 的 数据 类 型 ( 包括 用 户 自 定义 类 型 ) 、 函 数 和 操作 符 。 

每 条 SQL 语句 由 数据 库 服务 器 独立 执行 的 情况 下 ， 客 户 端 应 用 向 数据 库 服务 器 发 送 一 个 
查询 请 求 后 ， 必 须 等 待 处 理 完毕 , 接收 处 理 结果 ,做 相应 的 计算 , 然后 再 向 服务 器 发 送 后 面 的 
查询 ,通常 客户 端 与 数据 库 服务 器 不 在 同一 物理 主机 上 , 这 种 频繁 的 进程 间 通 信 增 加 了 网 络 开 
销 。 使 用 PL/pgSQL 函数 ， 可 以 将 一 系列 查询 和 计算 作为 一 组 保存 在 数据 库 服务 器 中 。 它 结合 
了 过 程 语言 的 强大 功能 与 SQL 语言 的 易 用 性 ， 并 且 显 著 降低 了 客户 端 /服务 器 的 通信 开销 。 正 
因 如 此 ， 很 多 时 候 UDF 的 性 能 比 不 使 用 存储 函数 的 情况 会 有 很 大 提高 : 

@ 消除 了 客户 端 与 服务 器 之 间 的 额外 往复 ， 只 需要 一 次 调用 并 接收 结果 即 可 。 

© ”客户 端 不 需要 中 间 处 理 结果 ， 从 而 避免 了 它 和 服务 器 之 间 的 数据 传输 或 转换 。 

e 避免 多 次 查询 解析 。 
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PL/pgSQL 函数 参数 接收 任何 HA WQ 服务 器 所 支持 的 标量 数据 类 型 或 数组 类 型 ， 也 可 以 
返回 这 些 数据 类 型 。 除 此 之 外 ，PL/pgSQL 还 可 以 接收 或 返回 任何 自 定义 的 复合 数据 类 型 ， 也 
支持 返回 单行 记录 (record 类 型 ) 或 多 行 结果 集 (set of record 或 table 类 型 ) 。 返 回 结果 集 的 
函数 通过 执行 RETURN NEXT 语句 生成 一 条 返回 的 记录 Cb PostgreSQL 不 同 ，HAWQ 函数 
不 支持 RETURN QUERY 语法 ) 。 

PL/pgSQL 可 以 声明 输出 参数 , 这 种 方式 可 代替 用 returns 语句 显 式 指定 返回 数据 类 型 的 写 
法 。 当 返回 值 是 单行 多 列 时 ， 用 输出 参数 的 方式 更 方便 。 





























给 HAWQ 内 部 函数 起 别名 


许多 HAWQ 的 内 部 函数 是 用 C 语言 编写 的 。 这 些 函 数 在 HAWQ 集群 初始 化 时 声明 ， 并 
静态 连接 到 HAWQ 服务 器 。 用 户 不 能 自己 定义 新 的 内 部 函数 ， 但 可 以 给 已 存在 的 内 部 函数 起 
别名 。 下 面 的 例子 创建 了 一 个 新 的 函数 fn_all_caps， 它 是 HAWQ 内 部 函数 upper 的 别名 。 

create function fn all caps (text) returns text as 'upper' language internal 


strict; 
该 函数 的 调用 结果 如 下 : 


db1=# select fn all caps('change me') ; 
fn all caps 


CHANGE ME 
(1 row) 


表 函 数 返回 多 行 结果 集 ， 调 用 方法 就 像 查询 一 个 FROM 子 句 中 的 表 、 视 图 或 子 查询 。 如 
果 表 函数 返回 单列 ， 那 么 返回 的 列 名 就 是 函数 名 。 下 面 是 一 个 表 函 数 的 例子 ， 该 函数 返回 
channel 表 中 给 定 ID 值 的 数据 。 


create function fn_getchannel(int) returns setof channel as $$ 











select * from channel where id = $1; 
$$ language sql; 


可 以 使 用 以 下 语句 调用 该 函数 : 


select * from fn getchannel(-1) as t1; 
select * from fn getchannel(13) as t1; 
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调用 结果 如 下 : 


db1=# select * from fn getchannel(-1) as t1; 
id | cname | parent id 

€——— A 

(0 rows) 


dbl=# select * from fn getchannel(13) as tl; 


id | cname | parent id 
eme eie femme menm 
13 | aR | -1 

(1 row) 


与 PostgreSQL 不 同 ，HAWQ 的 表 函 数 不 能 用 于 表 连 接 。 在 PostgreSQL 中 以 下 查询 可 以 
正常 执行 : 

dbl-£ create table tl (a int); 

CREATE TABLE 

db1=# insert into tl values (1); 

INSERT 0 1 

db1=# select * from t1,fn_getchannel (13); 

a | id | cname | parent id 

-T--4----4------- 4----------- 

x pum es fl =l 

(1 行 记录 ) 


但 是 在 HAWQ 中 ， 同 样 的 查询 会 报错 : 


dbl=# create table tl (a int); 

CREATE TABLE 

db1=# insert into tl values (1); 

INSERT 0 1 

dbl=# select * from t1,fn_getchannel (13); 

ERROR: function cannot execute on segment because it accesses relation 
"public.channel" (functions.c:152) (seg0 hdp3:5432 pid=575910) 
(dispatcher.c:1801) 

DETAIL: SQL function "fn_getchannel" during startup 

db1=# 


单独 查询 表 函 数 是 可 以 的 : 


db1=# create view vw_getchannel as select * from fn_getchannel (13); 
CREATE VIEW 
db1=# select * from vw getchannel; 


id | cname | parent id 
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13 | HX | -1 

(1 row) 

在 某 些 场景 下 ,函数 返 回 的 结果 依赖 于 调用 它 的 参数 。 为 了 支持 这 种 情况 , 表 函 数 可 以 被 
声明 为 返回 伪 类 型 (pseudotype) 的 记录 。 当 这 种 函数 用 于 查询 中 时 ， 必 须 由 查询 本 身 指定 返 
回 的 行 结构 。 下 面 的 例子 使 用 动态 SQL， 返 回 结果 集 依 赖 于 作为 入 参 的 查询 语句 。 


create or replace function fn return pseudotype (str sql text) 











returns setof record as 
$$ 
declare 

v_rec record; 
begin 

for v_rec in execute str_sql loop 

return next v_rec; 

end loop; 

return; 
end; 
$$ 
language plpgsql; 
调用 函数 时 必须 显 式 指 定 返回 的 字段 名 及 其 数据 类 型 。 
dbl=# select * from fn return pseudotype('select 1') t (id int); 
id 


m 
(1 row) 


db1=# select * fromfn return pseudotype('select * fromchannel') t (idint,cname 
varchar(200),parent id int); 


id |  cname | parent id 
——— ER 
13 | HÀ | =1 
14 | tv580 1 -1 
15 | 生活 580 1 -1 
16 | ALLAH | 13 
17 | 帮忙 1 14 
18 | 栏目 简介 | 17 
(6 rows) 


https://www.postgresql.org/docs/8.2/static/datatype-pseudo.html 显示 了 PostgreSQL 8.2 支持 
的 伪 类 型 。 伪 类 型 不 能 作为 表 列 或 变量 的 数据 类 型 ， 但 可 以 被 用 于 函数 的 参数 或 返回 值 类 型 。 
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参数 个 数 可 变 的 函数 


HAWQ 从 PostgreSQL 继承 了 一 个 非常 好 的 特性 ， 即 函数 参数 的 个 数 可 变 。 在 某 些 数据 库 
系统 中 ， 想 实现 这 个 功能 是 很 麻烦 的 。 参 数 个 数 可 变 是 通过 一 个 动态 数组 实现 的 ， 因 此 所 有 参 
数 都 应 该 具有 相同 的 数据 类 型 。 这 种 函数 将 最 后 一 个 参数 标识 为 VARIADIC， 并 且 参 数 必须 
声明 为 数组 类 型 。 下 面 是 一 个 例子 ， 实 现 类 似 原 生 函 数 greatest 的 功能 。 


create or replace function fn mgreatest (variadic numeric[]) returns numeric as 
$$ 
declare 
1 i numeric:--99999999999999; 
l x numeric; 
arrayl alias for $1; 
begin 
for i in array lower(arrayl, 1) .. array upper(arrayl, 1) 
loop 
1l x:-arrayll[il; 
af Ix » 1 i then 
l_i := 1 x; 
end if; 
end loop; 
return l_i; 
end; 
$$ language 'plpgsql'; 


执行 函数 结果 如 下 : 


db1=# select fn mgreatest(array[10, -1, 5, 4.4]); 
fn mgreatest 


(1 row) 


dbl=# select fn mgreatest(array[10, -1, 5, 4.4, 1001); 
fn mgreatest 
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多 态 类 型 


PostgreSQL 中 的 anyelement、anyarray、anynonarray 和 anyenum 四 种 伪 类 型 被 称 为 多 态 类 
型 。 使 用 这 些 类 型 声明 的 函数 叫做 多 态 函 数 。 多 态 函 数 的 同一 参数 在 每 次 调用 函数 时 可 以 有 不 
同 数据 类 型 ， 实 际 使 用 的 数据 类 型 由 调用 函数 时 传 入 的 参数 所 确定 。 

当 一 个 查询 调用 多 态 函 数 时 ， 特 定 的 数据 类 型 在 运行 时 解析 。 每 个 声明 为 anyelement 的 
位 置 〈 参 数 或 返回 值 ) 允许 是 任何 实际 的 数据 类 型 ， 但 是 在 任何 一 次 给 定 的 函数 调用 中 ， 
anyelement 必须 具有 相同 的 实际 数据 类 型 。 同样, 每 个 声明 为 anyarray 的 位 置 允许 是 任何 实际 
的 数组 数据 类 型 ， 但 是 在 任何 一 次 给 定 的 函数 调用 中 ，anyarray 也 必须 具有 相同 类 型 。 如 果菜 
些 位 置 声明 为 anyarray， 而 另外 一 些 位 置 声明 为 anyelement， 那 么 实际 的 数组 元 素 类 型 必须 与 
anyelement 的 实际 数据 类 型 相同 。 

anynonarray 在 操作 上 与 anyelement 完全 相同 ， 它 只 是 在 anyelement 的 基础 上 增加 了 一 个 
额外 约束 ， 即 实际 类 型 不 能 是 数组 。anyenum 在 操作 上 也 与 anyelement 完全 相同 ， 它 只 是 在 
anyelement 的 基础 上 增加 了 一 个 额外 约束 ， 即 实际 类 型 必须 是 枚 举 (enum) 类 型 。anynonarray 
和 anyenum 并 不 是 独立 的 多 态 类 型 ， 它 们 只 是 在 anyelement 上 增加 了 约束 而 已 。 例 如 ， 
f(anyelement, anyenum) 与 f(anyenum, anyenum) 是 等 价 的， 实际 参数 都 必须 是 同样 的 枚 举 类 型 。 

如 果 一 个 函数 的 返回 值 被 声明 为 多 态 类 型 , 那么 它 的 参数 中 至 少 应 该 有 一 个 是 多 态 的 , IFAS 
数 与 返回 结果 的 实际 数据 类 型 必须 匹配 。 例 如 ， 函 数 声明 为 assubscript(anyarray, integer) returns 
anyelement。 此 函数 的 第 一 个 参数 为 数组 类 型 ， 而 且 返 回 值 必须 是 实际 数组 元 素 的 数据 类 型 。 再 比 
如 一 个 函数 的 声明 为 asftanyarray) returns anyenum， 那 么 参数 只 能 是 枚 举 类 型 的 数组 。 

参数 个 数 可 变 的 函数 也 可 以 使 用 多 态 类 型 ， 实 现 方式 是 声明 函数 的 最 后 一 个 参数 为 
VARIADIC anyarray。 

下 面 看 几 个 多 态 类 型 函数 的 列子 。 

例 1: 判断 两 个 入 参 是 否 相等 ， 每 次 调用 的 参数 类 型 可 以 不 同 , 但 两 个 入 参 的 类 型 必须 相 
同 。 


create or replace function fn equal (anyelement,anyelement) 




















returns boolean as $$ 
begin 
if $1 = $2 then return true; 
else return false; 
end if; 
end; $$ 
language 'plpgsql'; 


函数 调用 : 


dbl=# select fn equal(1,1); 
fn equal 
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过 程 语言 


{ah 


45] 2: 遍历 任意 类 型 的 数组 ， 数 组 元 素 以 行 的 形式 返回 。 


下 面 是 调用 函数 返回 情况 : 





db1=# select fn unnest (array['a','b','c']); 
fn unnest 


(3 rows) 


1913: 新 建 fn mgreatestl 函数 ， 使 它 能 返回 任意 数组 类 型 中 的 最 大 元 素 。 


create or replace function fn mgreatestl(v anyelement, variadic anyarray) 
returns anyelement as $$ 
declare 
1 i v%type; 
1 x v%type; 
arrayl alias for $2; 
begin 
l i := arrayl[1]; 
for i in array lower(arrayl, 1) .. array upper(arrayl, 1) loop 
1 x:-arrayl[i]; 
if 1x > 1 i then 
l_i := 1_x; 
end if; 
end loop; 
return l i; 
end; 


$$ language 'plpgsql'; 

说 明 : 

© 变量 不 能 定义 成 伪 类 型 ， 但 可 以 通过 参数 进行 引用 ， 如 上 面 函 数 中 的 L_iv%type。 
© 动态 数组 必须 是 函数 的 最 后 一 个 参数 。 

@ 第 一 个 参数 的 作用 仅 是 为 变量 定义 数据 类 型 ， 所 以 在 调用 函数 时 传 空 即 可 。 

下 列 是 调用 函数 返回 情况 : 

db1=# select fn mgreatestl(null, array[10, -1, 5, 4.4]); 


fn mgreatestl 


(1 row) 


dbl-£ select fn mgreatest1 (null, array['a', 'b', 'c']); 
fn mgreatestl 


UDF 管理 


1. 查看 UDF 定义 

psql 的 元 命令 \df 可 以 查看 UDF 的 定义 , 返回 函数 的 参数 与 返回 值 的 类 型 。 用 psql 命令 行 
的 -E 参数 ， 还 能 够 看 到 元 命令 对 应 的 对 系统 表 的 查询 语句 。 

[gpadmin@hdp3 ~]$ psql -d dbl -E 


psql (8.2.15) 
Type "help" for help. 








db1=# \df 
doe QUERY *eeeeeeeek 
SELECT n.nspname as "Schema", 
p-proname as "Name", 
CASE WHEN p.proretset THEN 'SETOF ' ELSE '' END || 
Pg catalog.format type(p.prorettype, NULL) as "Result data type", 
CASE WHEN proallargtypes IS NOT NULL THEN 
Pg catalog.array to string (ARRAY ( 


SELECT 
CASE 
WHEN p.proargmodes[s.i] = 'i' THEN '' 
WHEN p.proargmodes[s.i] - 'o' THEN 'OUT ' 
WHEN p.proargmodes[s.i] = 'b' THEN 'INOUT ' 


WHEN p.proargmodes[s.i] = 'v' THEN 'VARIADIC ' 
END || 
CASE 
WHEN COALESCE(p.proargnames[s.i], '') = '' THEN '' 
ELSE p.proargnames[s.i] || ' ' 
END || 


Pg catalog.format type(p.proallargtypes[s.i], NULL) 
FROM 
Pg catalog.generate series(1, pg catalog.array upper (p.proallargtypes, 
1)) AS s(i) 
VERS) 


ELSE 
Pg catalog.array to string (ARRAY ( 
SELECT 
CASE 
WHEN COALESCE(p.proargnames[s.i*1], '') = '' THEN '' 
ELSE p.proargnames[s.i*1] || ' ' 
END || 
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pg catalog.format type(p.proargtypes[s.i], NULL) 
FROM 
pg catalog.generate series(0, pg catalog.array upper (p.proargtypes, 
1)) AS s(i) 
Jr) 
END AS "Argument data types", 
CASE 
WHEN p.proisagg THEN 'agg' 
WHEN p.prorettype - 'pg catalog.trigger'::pg catalog.regtype THEN 
"trigger' 
ELSE 'normal' 
END AS "Type" 
FROM pg catalog.pg proc p 
LEFT JOIN pg catalog.pg namespace n ON n.oid - p.pronamespace 
WHERE pg catalog.pg function is visible(p.oid) 
AND n.nspname <> 'pg catalog' 
AND n.nspname <> 'information schema' 
ORDER BY 1, 2, 4; 


e e e e e e e e eee 


List of functions 


Schema | Name |Result data type |Argument data types IType 
-------- +------------------+------------------+---------------------+------ 
public | fn_all caps | text | text | 
normal 

public |fn_return_pseudotype| SETOF record | str_sql text 


normal (8 rows) 
可 以 看 到 ， 用 户 自 定义 函数 包含 在 pg. proc 系统 表 中 。 以 下 语句 查看 函数 体 : 


dbl=# select prosrc from pg proc where proname-'fn return pseudotype'; 
prosrc 


declare 
v rec record; 
begin 
for v rec in execute str sql loop 
return next v rec; 
end loop; 
return; 
end; 
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(1 row) 


2. 删除 UDF 


使 用 DROP FUNCTION <function_name> 命 令 删 除 函数 。 该 命令 需要 加 上 函数 定义 的 参数 
类 型 列表 ， 但 不 须 带 参数 名 。 
db1=# drop function fn mgreatestl; 


ERROR: syntax error at or near ";" 


LINE 1: drop function fn mgreatestl; 


db1=# drop function fn mgreatestl(); 

ERROR: function fn mgreatestl() does not exist 

db1=# drop function fn mgreatestl(anyelement, variadic anyarray); 
DROP FUNCTION 


© UDF 实例 一 一 递归 树 形 遍 历 


经 常 在 一 个 表 中 存在 表示 父子 关系 的 两 个 字段 ,比如 empno 与 manager, 本章 开始 建立 的 
示例 表 channel 也 属于 这 种 结构 。Oracle 中 可 以 使 用 connect by 简单 解决 此 类 树 的 遍历 问题 ， 
PostgreSQL 9 也 有 相似 功能 的 with recursive 语法 。 


db1=# with recursive t (id, cname, parent id, path, depth) as ( 


db1 (# select id, cname, parent id, array[id] as path, 1 as depth 
db1 (4 from channel 

db1 (4 where parent id - -1 

db1 (4 union all 

db1 (# select c.id, c.cname, c.parent id, t.path || c.id, t.depth +1 as depth 
db1 (# from channel c 

db1 (# join t on c.parent_id = t.id 

dbl(4 ) 

db1-# select id, cname, parent id, path, depth from t order by path; 
id! || cname | parent_id | path | depth 

----4------------ 4----------- 4------------ 4------- 

13 | 首页 | cal 3 l 1 

16 | AEH | 13 | {13,16} 1 2 

14 | tv580 | erl | {14} | il 

17 ANE 1 14. a 1 2 

18 | 栏目 简介 l 17 | (14,17,18) | 3 

15 | 生活 580 | E | | 1 

(6 行 记录 ) 





但 HAWQ 不 支持 with recursive 语法 ， 同 样 的 查询 ， 会 返回 错误 : 
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db1=# with recursive t (id, cname, parent_id, path, depth) as ( 


db1 (# select id, cname, parent_id, array[id] as path, 1 as depth 

db1 (# from channel 

db1 (# where parent_id = -1 

db1 (# union all 

dbl (# select c.id, c.cname, c.parent id, t.path || c.id, t.depth * 1 as depth 
dbl (# from channel c 

db1 (# join t on c.parent_id = t.id ) 


db1-# select id, cname, parent_id, path, depth from t order by path; 
ERROR: RECURSIVE option in WITH clause is not supported 
db1=# 


我 们 可 以 使 用 HAWQ 的 递归 函数 功能 ， 自 己 编写 UDF 来 实现 树 的 遍历 。 
1. 从 某 节点 向 下 遍历 子 节点 
(1) 建立 函数 递归 生成 节点 信息 ， 函 数 返 回 以 “|” 作 为 字段 分 隔 符 的 字符 串 。 


create or replace function fn ChildLst(int, int) 


returns setof character varying 


as 
$$ 
declare 
v_rec character varying; 
begin 
for v_rec in (select case when node = 1 then 
q-idl|'I'|lq.cname|]|'"|'|lq.parent_id||'|'|1$2 
else fn ChildLst(q.id, $2 + 1) 
end 
from (select id, cname, parent_id, node 
from (select 1 as node 
union all 
select 2) nodes, channel 
where parent_id = $1 
order by id, node) q) loop 
return next v_rec; 
end loop; 
return; 
end; 
$$ 


language 'plpgsql'; 
(2) 建立 节点 复合 数据 类 型 。 


create type tp_depth as (rn int, id int, cname varchar (200), parent id int, depth 


int); 
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(3) ¥% fn. ChildLst 函数 的 返回 值 转换 为 tp. depth 类 型 。 


create or replace function fn ChildLst split(int, int) 
returns setof tp depth 
as 
$$ 
select cast (rownum as int) rn, 
cast(a[1] as int) id, 
a[2] cname, 
cast(a[3] as int) parent id, 
cast(a[4] as int) depth 
from (select rownum,string to array(fn ChildLst,'|') a 
from (select row number() over() as rownum,* 
from fn ChildLst($1, $2) 
union all 
select O,id||'|'l|Icname||'|'||parent id||'|'||($2 -1) from 
channel where id - $1) 
Er 
$$ 
language 'sql'; 


(4) 建立 查询 结果 复合 数据 类 型 。 


create type tp_result as 

(id int, 

namel varchar(1000), 
parent id int, 

depth int,path varchar(200), 
pathname varchar(1000)); 


(5) 实现 类 似 Oracle SYS CONNECT BY PATH 的 功能 ， 递 归 输 出 某 节点 id 路 径 。 


create or replace function fn path(a id integer) 
returns character varying as $$ 
declare 
v result character varying; 
v parent id int; 
begin 
select t.parent id into v parent id 
from channel as t where t.id - a id; 
if found then 
v result := fn path(v parent id) || '/' || a id; 
else 
return ''; 
end if; 


return v result; 
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end; 
$$ language 'plpgsql'; 


(6) 递归 输出 某 节点 的 name 路 径 。 


create or replace function fn_pathname(a_id integer) 
returns character varying as $$ 
declare 
v_result character varying; 
v_parent_id int; 
v cname varchar (200); 


begin 


select t.cname,t.parent_id into v_cname,v_parent_id 


from channel as t where t.id = a_id; 
if found then 


v result :- fn pathname(v parent id) || '/' || v_cname; 


else 
return ''; 
end if; 
return v result; 
end; 
$$ language 'plpgsql'; 


(7) 建立 输出 子 节点 的 函数 。 


create or replace function fn showChildLst (int) 
returns setof tp result 


as 
$$ 
select tl.id, 
repeat(' ', tl.depth)||'--'||tl.cname namel, 
tl.parent id, 
tl.depth, 
fn path(tl.id) path, 
fn pathname(tl.id) pathname 
from fn ChildLst split($1,1) t1 
order by tl.rn; 
$$ 
language 'sql'; 
调用 函数 结果 如 下 : 
db1=# select * from fn showChildLst (-1); 
id jj namel | parent id | depth | path 
----4------------------ 4----------- 4------- +----------- +------------------ 
13 wq e 1 sr e T ets 








/首页 /左上 幻灯 片 
/tv580 

/tv580/ 帮 忙 
/tv580/ 帮 忙 /栏目 简介 
/生活 580 


1 /首页 
1 /首页 /左上 幻灯 片 


pathname 


/tv580 
/tv580/ 帮 忙 
/tv580/ 帮 忙 / 栏 目 简介 


pathname 


/tv580/ 帮 忙 
/tv580/ 帮 忙 / 栏 目 简介 


pathname 


/tv580/ 帮 忙 / 栏 目 简介 


16 --ELEANH | 13 i] 2 | /13/16 
14 --tv580 | sil, || al |i yale} 

17 =- 1 14 | 2 | /14/17 
18 =-- 栏 目 简介 | ay 3 | /14/17/18 
358 --'Eisi 580 1 =1 g TENIS 

(6 rows) 

db1=# select * from fn showChildLst (13); 

id namel | parent id | depth | path 
----R--------------- 4----------- 4------- 4-------- 4------------------ 
13 | -KN | -1 | 0 | /13 

16 -- 左 上 幻灯 片 | ie} l x qp VANS 

(2 rows) 

dbl=# select * from fn showChildLst (14); 

id namel | parent id | depth | path 
-T------------------ 4----------- 4------- 4----------- * 
14 --tv580 | -1 | OY) yaks 

17 = 帮忙 | 14 | 1 | /14/17 

18 --EHfüfr 1! 17 | 2 | /14/17/18 
(3 rows) 

db1=# select * from fn showChildLst (17); 

id namel | parent id | depth | path 
----4-------------- 4----------- 4------- 4----------- 4--- 
17 | -- 帮 忙 | 14 | 0 | /14/17 

18 -- 栏 目 简介 l 7T 1 | /14/17/18 
(2 rows) 

dbl=# select * from fn showChildLst (18); 

id namel | parent id | depth | path 
----4------------ 4----------- ------- ----------- 4---------------------- 
18 | -- 栏 目 简介 1 a 0 | /14/17/18 
(1 row) 

db1=# 


2. 从 某 节点 向 上 追溯 根 节点 
(1) 从 某 节 点 向 上 递归 生成 节点 信息 ， 函 数 返 回 以 “|” 作 为 字段 分 隔 符 的 字符 串 。 


create or replace function fn ParentLst(int, int) 


returns setof character varying 


as 
$$ 
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declare 
v_rec character varying; 
begin 
for v_rec in (select case when node = 1 then 
q.id|I'I'IIq.cname||'I' | Igq.parent idl1"17"11$2 
else fn ParentLst(q.parent id, $2 * 1) 
end 
from (select id, cname, parent id, node 
from (select 1 as node 
union all 
select 2) nodes, channel 
where id = $1 
order by id, node) q) loop 
return next v rec; 
end loop; 
return; 
end; 
$8 
language 'plpgsql'; 


(2) 将 fn. ParentLst 函数 的 返回 值 转换 为 tp_depth 类 型 。 


create or replace function fn ParentLst split(int, int) 
returns setof tp depth 


as 
$$ 
select cast(rownum as int) rn, 

cast(a[1] as int) id, 

a[2] cname, 

cast(a[3] as int) parent id, 

cast(a[4] as int) depth 

from (select rownum,string to array(fn ParentLst,'|') a 
from (select row number() over() as rownum,* from fn ParentLst($1, 
S2) tyr 

$$ 


language 'sql'; 
(3) 建立 输出 父 节点 的 函数 。 


create or replace function fn_showParentLst (int) 
returns setof tp_result 
as 
$$ 
select tl.id, 
repeat(' ', tl.depth)||'--'||tl.cname namel, 


212 


tl.parent id, 
tl.depth, 


fn path(tl.id) path, 


fn pathname (tl.id) 
from fn ParentLst split($1 
order by tl.rn; 
$$ 
language 'sql'; 


调用 函数 结果 如 下 : 


pathname 
,0) tl 


db1=# select * from fn showParentLst (-1); 


id | namel | parent id | 


depth | path | pathname 


----4------- 4-------------- 4-------- 4--------- 4---------- 


(0 rows) 


db1=# select * from fn showParentLst (13); 


id | namel | parent id | depth | path | pathname 
-T------------- *----------- 4-------- *--------- 4---------- 
13 | ER | -1 | O ts To azn 

(1 row) 


db1=# select * from fn showParentLst (14); 


id namel | parent id | 

-T---4---------- 4----------- + 
14 --tv580 | ail | 
(1 row) 


depth | path | pathname 
SS €——————— 
0 | /14 | /tv580 


db1=# select * from fn showParentLst (17); 


id namel | parent id | 
----+---------- 4+----------- + 
ep || Sadie | 14 | 
14 --tv580 | c 

(2 rows) 


db1=# select * from fn showParentLst (18); 





id namel | parent id | 
----4----------- 4---------- * 
18 | -- 栏 目 简介 | 17 | 
ay SE | 14 | 
14 --tv580 | cat 

(3 rows) 

db1=# 


depth | path | pathname 

ES EE 
0 1 /14/17 | /tv580/ 帮 忙 
1 | /14 | /tv580 

depth | path | pathname 

tcu LE ee S TEN UM I SUD eU d ARP 
0 | /14/17/18| /tv580/ 帮 忙 /栏目 简介 
1 | /14/17 | /tv580/ 帮 忙 
2 | /14 | /tv580 
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小 结 


HAWQ 支持 用 户 自 定义 函数 Cuser-defined functions, UDF) ， 编 写 UDF 的 语言 可 以 是 
SQL、C、Java、Perl、Python、R 和 pgSQL， 其 中 除 SQL 和 C 是 HAWQ 的 内 建 语言 ， 其 他 
语言 通常 被 称 为 过 程 语言 。HAWQ 本 身 没有 存储 过 程 的 概念 ， 但 可 以 通过 returns void 函数 来 
模拟 存储 过 程 。HAWQ UDF 支持 表 函 数 、 参 数 个 数 可 变 的 函数 、 多 态 类 型 等 有 用 特性 ， 还 可 
以 为 HAWQ 内 建 函 数 起 别名 。 虽 然 HAWQ 不 支持 递归 查询 ， 但 通过 自 定义 递归 函数 ， 亦 能 
实现 树 形 遍历 。 从 pg proc 系统 表 能 查看 函数 定义 。 在 删除 函数 时 ， 必 须 加 上 函数 的 参数 类 型 
列表 ， 但 不 用 带 参数 名 。 
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第 10 章 
< 查询 优化 > 


HAWQ 的 查询 有 其 自己 的 特点 ， 因 此 即便 对 SELECT 等 数据 库 查 询 语句 已 经 很 熟悉 了 ， 
还 是 需要 认真 研究 一 下 。 我 们 就 用 单独 的 一 章 来 说 明 。 


HAWQ 的 查询 处 理 流程 


理解 HAWQ 的 查询 处 理 过 程 有 助 于 写 出 更 加 优化 的 查询 。 与 任何 其 他 数据 库 管 理 系 统 类 
似 ，HAWQ 有 如 下 查询 执行 步 又 : 


a) 用 户 使 用 客户 端 程序 (如 psql) 连接 到 HAWQ Master 主机 上 的 数据 库 实 例 ， 并 向 
系统 提交 SQL 语句 。 

(2) Master 接收 到 查询 后 ， 由 查询 编译 器 解析 提交 的 SQL 语句 ， 并 将 生成 的 查询 解析 树 
递交 给 查询 优化 器 。 

G) 查询 优化 器 根据 查询 所 需 的 磁盘 1O、 网 络 流量 等 成 本 信息 ， 生 成 它 认 为 最 优 的 执 
行 计划 ， 并 将 查询 计划 交 给 查询 分 发 器 。 

(4) 查询 分 发 器 依照 查询 计划 的 成 本 信息 ， 向 HAWQ 资源 管理 器 请 求 所 需 的 资源 。 

(5) 获得 资源 后 ， 查 询 分 发 器 在 Segment 上 启动 虚拟 段 ， 并 向 虚拟 段 分 发 查询 计划 。 

(6) 查询 执行 器 使 用 多 个 虚拟 段 并 行 执行 查询 ， 将 结果 传 回 至 Master， 最 后 Master 向 客 
户 端 返回 查询 结果 。 

HAWQ 基本 的 查询 处 理 流 程 如 图 10-1 所 示 。 
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图 10-1 HAWQ 查询 处 理 流程 








HAWQ 数据 仓库 与 数据 挖掘 实战 
1. 查询 计划 


一 个 查询 计划 是 HAWQ 为 了 产生 查询 结果 而 要 执行 的 一 系列 操作 。 查 询 计划 中 的 每 个 节 
点 或 步骤 ， 表 示 一 个 数据 库 操 作 ， 如 表 扫 描 、 连 接 、 聚 合 、 排 序 等 等 。 查 询 计划 被 由 底 向 上 读 
取 和 执行 。 

除了 通常 的 扫描 、 连 接 等 数据 库 操作 ，HAWQ 还 有 一 种 叫做 motion 的 操作 类 型 。 查 询 处 理 期 
li], motion 操作 通过 内 部 互联 网 络 在 节点 间 移 动 数据 ， 并 不 是 每 个 查询 都 需要 motion 操作 。 为 了 
实现 查询 执行 的 最 大 并 行 度 ，HAWQ 将 查询 计划 分 成 多 个 slice, 每 个 slice 可 以 在 Segment 上 独立 
执行 。 查 询 计划 中 的 motion 操作 总 是 分 片 的 ， 迁 移 数据 的 源 和 目标 上 各 有 一 个 slice。 

下 面 的 查询 连接 两 个 数据 库 表 : 


select customer, amount 
from sales join customer using (cust_id) 
where datecol = '04-30-2016'; 
10-2 显示 了 为 该 查询 生成 的 三 个 slice。 每 个 Segment 接收 一 份 查询 计划 的 复制 ， 查 询 
计划 在 多 个 Segment 上 并 行 工 作 。 


SEGMENT 1 SEGMENT 2 


1 SLICES 1 | SLICES. 1 





10-2 查询 计划 slice 


注意 slice 1 中 的 redistribute motion 操作 ， 它 在 Segment 间 移 动 数据 以 完成 表 连 接 。 假 设 
customer 表 通 过 cust id 字段 在 Segment 上 分 布 ， 而 sales 表 通 过 sale id 字段 分 布 。 为 了 连接 
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两 个 表 ，sales 的 数据 必须 通过 cust id 重新 分 布 。 因 此 查询 计划 在 每 个 分 片上 各 有 一 个 
redistribute motion 操作 。 

在 这 个 执行 计划 中 还 有 一 种 叫做 gather motion 的 motion 操作 。 当 Segment 将 查询 结果 发 
送 回 Master， 用 于 向 客户 端 展示 时 ， 会 使 用 gather motion。 因 为 查询 计划 中 发 生 motion 的 部 
分 总 是 被 分 片 , 所 以 在 图 10-2 的 顶部 还 有 一 个 隐 含 的 slice 3。 并 不 是 所 有 查询 计划 都 包含 gather 
motion， 例 如 ，CREATE TABLE x AS SELECT... 语句 就 没有 gather motion 操作 ， 因 为 结果 数 
据 被 发 送 到 新 表 而 不 是 Master。 

2. 并 行 执行 

HAWQ 会 创建 许多 数据 库 进 程 处 理 一 个 查询 。Master 和 Segment 上 的 查询 工作 进程 分 别 
被 称 为 查询 分 发 器 〈query dispatcher, QD) 和 查询 执行 器 〈query executor, QE) 。QD 负责 
创建 和 分 发 查询 计划 ， 并 返回 最 终 的 查询 结果 。QE 在 虚拟 段 中 完成 实际 的 查询 工作 ， 并 与 其 
他 工作 进程 互通 中 间 结 果 。 

查询 计划 的 每 个 slice 至 少 需要 一 个 工作 进程 。 工作 进程 独立 完成 被 赋予 的 部 分 查询 计划 。 

-个 查询 执行 时 , 每 个 虚拟 段 中 有 多 个 并 行 执行 的 工作 进程 。 工 作 在 不 同 虚拟 段 中 的 相同 slice 
构成 一 个 gang。 查 询 计划 被 从 下 往 上 执行 ， 一 个 gang 的 中 间 结 果 数 据 向 上 流向 下 一 个 gang. 
不 同 虚 拟 段 的 进程 间 通 信和 是 由 HAWQ 的 内 部 互联 组 件 完成 的 。 

图 10-3 显示 了 示例 中 Master 和 Segment 上 的 工作 进程 ， 查 询 计 划分 成 了 三 个 slice， 两 个 

Segment 上 的 相同 slice 构成 了 gang. 


Dis 








B segment 


10-3 gang 5j slice 


10.2 cPORCA 查询 优化 器 


当前 HAWQ 默认 使 用 的 查询 优化 器 是 GPORCA， 但 遗留 的 老 优化 器 与 GPORCA 并 存 。 
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HAWQ 尽 可 能 使 用 GPORCA 生成 查询 的 执行 计划 ， 当 GPORCA 没有 启用 或 无 法 使 用 时 ， 

HAWQ 用 老 的 查询 优化 器 生成 执行 计划 。 可 以 通过 EXPLAIN 命令 的 输出 确定 查询 使 用 的 是 
哪 种 优化 器 。GPORCA 会 忽略 与 老 优化 器 相关 的 服务 器 配置 参数 ， 但 当 查 询 使 用 老 优 化 器 时 ， 
这 些 参数 仍然 影响 查询 计划 的 生成 。 相 对 于 老 优 化 器 ，GPORCA 在 多 核 环境 中 的 优化 能 力 更 
强 , 并 且 在 分 区 表 查 询 、 子 查询 、 连 接 、 排 序 等 操作 上 提升 了 性 能 。 图 10-4 显示 了 HAWQ 查 


10.2.1 


Client 
Query 


GPORCA 的 改进 


1. 分 区 表 查 询 
GPORCA 在 查询 分 区 表 时 做 了 以 下 增强 : 
e ”改进 分 区 消除 。 
@ ”查询 计划 中 包含 了 分 区 选择 器 操作 符 。 
€ ”如 果 查 询 中 分 区 键 与 常量 进行 比较 ，GPORCA 在 EXPLAIN 输出 中 的 分 区 选择 器 操 
作 符 下 列 出 需要 扫描 的 分 区 数 。 如 果 查 询 中 分 区 键 与 变量 进行 比较 , 只 有 在 查询 执行 
时 才能 知道 需要 扫描 的 分 区 数 ， 因 此 EXPLAIN 的 输出 中 无 法 显示 选择 的 分 区 。 
e 查询 计划 的 大 小 与 分 区 数量 无 关 。 
e 减少 了 由 于 分 区 数量 引起 的 内 存 溢 出 (Out of memory，OOM ) 错误 。 
下 面 看 一 个 分 区 表 查 询 的 例子 。 


dbl-£ create table sales (order id int, item id int, amount numeric(15,2), date 


date, yr qtr int) 







Legacy 


Optimizer 


Plan 


10-4 HAWQ 查询 优化 器 


dbl-# partition by range (yr_qtr) 
( partition p201701 start (201701) inclusive , 


db1-# 
db1 (# 
db1 (# 
db1 (# 
dbl (# 
db1 (# 
db1 (# 
db1 (# 
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partition p201702 
partition p201703 
partition p201704 
partition p201705 
partition p201706 
partition p201707 
partition p201708 


start 
start 
start 
start 
start 
start 
start 


(201702) 
(201703) 
(201704) 
(201705) 
(201706) 
(201707) 
(201708) 


inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 


inclusive 


Execution 








Execution 
Engine 


db1(# partition p201709 start (201709) inclusive , 
db1(# partition p201710 start (201710) inclusive , 
db1(# partition p201711 start (201711) inclusive , 
db1(# partition p201712 start (201712) inclusive 
dbl (# end (201801) exclusive ); 
CREATE TABLE 

db1=# 


GPORCA 改进 了 分 区 表 上 以 下 类 型 的 查询 : 
e ”全 表 扫 描 时 ， 查 询 计 划 中 不 罗列 分 区 ， 只 显示 分 区 数量 。 


dbl=# explain select * from sales; 
QUERY PLAN 
Gather Motion 1:1 (slicel; segments: 1) (cost=0.00..431.00 rows=1 width=24) 
-> Sequence (cost=0.00..431.00 rows=1 width=24) 
-> Partition Selector for sales (dynamic scan id: 1) 
(cost=10.00..100.00 rows=100 width=4) 
Partitions selected: 12 (out of 12) 
-> Dynamic Table Scan on sales (dynamic scan id: 1) (cost=0.00..431.00 
rows=1 width-24) 
Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 


(7 rows) 
@ ”查询 中 如 果 包 含 常量 过 滤 谓 词 ， 执 行 分 区 消除 。 下 面 的 查询 只 需要 扫描 12 个 分 区 中 
的 1 个 。 


db1=# explain select * from sales where yr qtr = 201706; 
QUERY PLAN 
Gather Motion 1:1 (slicel; segments: 1) (cost=0.00..431.00 rows=1 width=24) 
-> Sequence (cost=0.00..431.00 rows=1 width=24) 
-> Partition Selector for sales (dynamic scan id: 1) 
(cost=10.00..100.00 rows=100 width=4) 
Filter: yr qtr = 201706 
Partitions selected: 1 (out of 12) 
-> Dynamic Table Scan on sales (dynamic scan id: 1) (cost=0.00..431.00 
rows=1 width-24) 
Filter: yr qtr = 201706 
Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 
(9 rows) 
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e ”范围 选择 同样 执行 分 区 消除 。 下 面 的 查询 扫描 4 个 分 区 。 


db1=# explain select * from sales where yr _ qtr between 201701 and 201704 ; 
QUERY PLAN 
Gather Motion 1:1 (slicel; segments: 1) (cost=0.00..431.00 rows-1 width-24) 
-» Sequence (cost-0.00..431.00 rows-1 width-24) 
-» Partition Selector for sales (dynamic scan id: 1) 
(cost-10.00..100.00 rows-100 width-4) 
Filter: yr qtr >= 201701 AND yr qtr <= 201704 
Partitions selected: 4 (out of 12) 
-» Dynamic Table Scan on sales (dynamic scan id: 1) (cost=0.00..431.00 
rows=1 width=24) 
Filter: yr qtr >= 201701 AND yr qtr <= 201704 
Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 
(9 rows) 


e 查询 中 包含 子 查询 过 滤 谓 词 ， 查 询 计 划 中 显示 扫描 全 部 12 个 分 区 ， 但 运行 时 可 以 进 
行动 态 分 区 消除 。 


db1=# explain select * from sales where yr qtr = (select 201701); 
QUERY PLAN 


Hash Join (cost=0.00..431.00 rows=1 width=24) 
Hash Cond: "outer"."?column?" = sales.yr qtr 
-> Result (cost=0.00..0.00 rows=1 width=4) 
-> Result (cost=0.00..0.00 rows=1 width=1) 
-> Hash (cost=431.00..431.00 rows=1 width=24) 
-> Gather Motion 1:1 (slicel; segments: 1) (cost=0.00..431.00 rows=1 
width=24) 
-> Sequence (cost=0.00..431.00 rows=1 width=24) 
-> Partition Selector for sales (dynamic scan id: 1) 
(cost=10.00..100.00 rows=100 width=4) 
Partitions selected: 12 (out of 12) 


-> Dynamic Table Scan on sales (dynamic scan id: 1) 
(cost=0.00..431.00 rows=1 width=24) 


Settings: default hash table bucket number-24; optimizer-on 
Optimizer status: PQO version 1.684 
(12 rows) 


2. 子 查询 
GPORCA 能 够 更 有 效 地 处 理子 查询 : 


select * from part where price > (select avg(price) from part); 
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GPORCA 也 能 高 效 处 理 相 关子 查询 (correlated subquery, CSQ) 。 相 关子 查询 在 子 查询 
中 引用 了 外 层 查询 的 值 : 


select * frompart pl where price > (select avg (price) frompart p2 where p2.brand 


= pl.brand); 
GPORCA 为 下 面 类 型 的 相关 子 查询 生成 更 有 效 的 查询 计划 : 


e ”相关 子 查询 出 现在 SELECT 列表 中 。 


select *, 

(select min(price) from part p2 where pl.brand = p2.brand) 
as foo 
from part pl; 


e ”相关 子 查询 出 现在 OR 过 滤 中 。 


select * from part pl where p_size > 40 or 
p_retailprice > 
(select avg(p_retailprice) 
from part p2 
where p2.p brand = pl.p brand); 


e 多 级 点 套 相 关子 查询 。 
select * from part pl where pl.p partkey 
in (select p partkey from part p2 where p2.p retailprice = 
(select min(p retailprice) 
from part p3 
where p3.p brand = pl.p brand)); 


@ 不 等 于 条 件 的 相关 子 查询 。 
select * from part pl where pl.p retailprice = 

(select min(p retailprice) from part p2 where p2.p brand <> pl.p brand); 
e ”返回 单行 的 相关 子 查询 。 


select p partkey, 
(select p retailprice from part p2 where p2.p brand - pl.p brand ) 


from part pl; 

3. 共用 表 表达 式 

GPORCA 能 处 理 包 含 WITH 子 名 的 查询 ,WITH 子 句 又 被 称 为 共用 表 表 达 式 (common table 
expression, CTE) ， 是 在 查询 时 系统 自动 生成 的 一 个 临时 表 。 


dbl=# create table t (a int,b int,c int); 
CREATE TABLE 
dbl-£ insert into t values (1,1,1), (2,2,2); 
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INSERT 0 2 

dbl=# with v as (select a, sum(b) as s from t where c < 10 group by a) 
db1-# select * from v as vl, v as v2 

db1-# where vl.a <> v2.a and vl.s < v2.s; 

exisse: 

---4---4---4--- 

al qp ate Tae ||) 

(1 row) 


作为 查询 优化 的 一 部 分 ，GPORCA 能 将 谓词 过 滤 条 件 下 推 至 CTE， 如 下 面 的 查询 。 


dbl=# explain 
dbl-# with v as (select a, sum(b) as s from t group by a) 
db1-# select * 


db1-# from v as vl, v as v2, v as v3 
db1-# where vl.a < v2.a 
db1-# and vl.s < v3.s 
db1-# and vl.a = 10 
db1-# and v2.a = 20 
db1-# and v3.a = 30; 
QUERY PLAN 


-> Table Scan on t (cost=0.00..431.00 rows-2 width=8) 
Filter: a = 10 OR a = 20 OR a = 30 
Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 
(34 rows) 


GPORCA 可 以 处 理 以 下 类 型 的 CTE: 
@ ”一 条 查询 语句 中 定义 多 个 CTE。 


dbi-£ with ctel as (select a, sum(b) as s from t 


db1 (4 where c « 10 group by a), 

db1-# cte2 as (select a, s from ctel where s > 1) 
db1-# select * 

db1-# from ctel as vl, cte2 as v2, cte2 as v3 


db1-# where vl.a « v2.a and vl.s < v3.s; 


Bi spes de oe oe 
一 一 一 十 一 一 一 十 一 一 一 十 一 一 一 十 一 一 一 十 一 一 


a ee Pea 2 
(1 row) 


e CTE. 


222 


db1=# with v as (with w as (select a, b from t 


db1 (# where b « 5) 
db1 (# select wl.a, w2.b 

db1 (# from w as wl, w as w2 
db1 (# where wl.a = w2.a and wl.a > 1) 
dbl-# select vl.a, v2.a, v2.b 

db1-# from v as vl, v as v2 

db1-# where vl.a <= v2.a; 

alalyb 

se eee ems 

22 

(1 row) 


4. INSERT 语句 的 提升 


e 查询 计划 中 增加 Insert 操作 符 。 
€ 引入 Assert 操作 符 用 于 约束 检查 。 


dbl=# drop table t; 
DROP TABLE 
db1=# create table t (a int not null, b int, c int); 
CREATE TABLE 
dbl=# explain insert into t values (1,1,1); 
QUERY PLAN 
Insert (cost=0.00..0.08 rows-1 width=12) 
-» Result (cost=0.00..0.00 rows-1 width-20) 
-» Assert (cost=0.00..0.00 rows-1 width-20) 
Assert Cond: NOT a IS NULL 
-» Result (cost-0.00..0.00 rows-1 width-20) 
-» Result (cost=0.00..0.00 rows-1 width-1) 
Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 





(8 rows) 

5. 去 重 聚 合 

GPORCA 提升 了 一 类 去 重 聚合 查询 的 性 能 。 当 查询 中 包含 有 去 重 限定 的 聚合 操作 C distinct 
qualified aggregates, DQAO ， 并 且 没 有 分 组 列 ， 表 也 不 是 以 聚合 列 做 的 分 布 ， 则 GPORCA 在 
三 个 阶段 计算 聚合 函数 ， 分 别 是 本 地 、 中 间 和 全 局 聚合 。 

db1=# explain select count(distinct b) from t; 


QUERY PLAN 


- Aggregate (cost=0.00..431.00 rows=1 width=8) 
-> Gather Motion 1:1 (slice2; segments: 1) (cost=0.00..431.00 rows=2 
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width=4) 
-> GroupAggregate (cost=0.00..431.00 rows=2 width=4) 
Group By: b 
-» Sort (cost=0.00..431.00 rows-2 width=4) 
Sort Key: b 
-> Redistribute Motion 1:1 (slicel; segments: 1) 
(cost=0.00..431.00 rows=2 width=4) 
Hash Key: b 
-> GroupAggregate (cost=0.00..431.00 rows=2 width=4) 
Group By: b 
-> Sort (cost=0.00..431.00 rows=2 width=4) 
Sort Key: b 
-> Table Scan on t (cost=0.00..431.00 
rows=2 width=4) 
Settings: default hash table bucket number-24 
Optimizer status: PQO version 1.684 
(15 rows) 


optimizer prefer scalar dqa multistage agg 配置 参数 控制 处 理 DQA 的 行为 ， 该 参数 默认 
是 启用 的 。 


[gpadmin@hdp3 ~]$ hawq config -s optimizer prefer scalar dqa multistage agg 
GUC : optimizer prefer scalar dqa multistage agg 

Value : on 

[gpadmin@hdp3 ~]$ 


启用 该 参数 会 强制 GPORCA 使 用 三 阶段 DQA 计划 ， 保 证 DQA 查询 具有 可 预测 的 性 能 。 
如 果 禁 用 该 参数 ， 则 GPORCA 使 用 基于 成 本 的 方法 生成 执行 计划 。 


10.2.2 启用 GPORCA 

预 编译 版 本 的 HAWQ 默认 启用 GPORCA 查询 优化 器 ， 不 需要 额外 配置 。 当 然 也 可 以 手 
TJAH GPORCA， 这 需要 设置 以 下 两 个 配置 参数 : 

€ it optimizer analyze root partition 参数 收集 分 区 表 的 根 分 区 统计 信息 。 

€ 设置 optimizer 参数 启用 GPORCA. 


分 区 表 上 使 用 GPORCA 时 必须 用 ANALYZE ROOTPARTITION 命令 收集 根 分 区 的 统计 
信息 。 该 命令 只 收集 根 分 区 统计 信息 ， 而 不 收集 叶 分 区 。 作 为 一 项 例 行 的 数据 库 维护 工作 ， 应 
该 在 分 区 表 数 据 大 量 改 变 〈 如 装载 了 大 量 数据 ) 后 刷新 根 分 区 的 统计 。 


1. i&& optimizer analyze root partition 参数 
以 gpadmin 用 户 登 录 HAWQ Master 主机 设置 环境 。 








[gpadminehdp3 ~]$ source /usr/local/hawq/greenplum_path.sh 
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使 用 hawq config 应 用 程序 设置 optimizer_analyze_root_partition 参数 。 


[gpadmin@hdp3 ~]$ hawq config -c optimizer analyze root partition -v on 


ER HAWQ 配置 。 





[gpadmin@hdp3 ~]$ hawq stop cluster -u 
2. 在 系统 级 启用 GPORCA 

以 gpadmin 用 户 登 录 HAWQ Master 主机 设置 环境 。 

[gpadmin@hdp3 ~]$ source /usr/local/hawq/greenplum_path.sh 
使 用 hawq config 应 用 程序 设置 optimizer 参数 。 

[gpadminehdp3 ~]$ hawq config -c optimizer -v on 

3E HAWQ 配置 。 

[gpadmin@hdp3 ~]$ hawq stop cluster -u 

3. 在 数据 库 级 别 启用 GPORCA 

使 用 ALTER DATABASE 命令 设置 一 个 数据 库 的 优化 器 : 


dbl=# alter database dbl set optimizer = on ; 
ALTER DATABASE 


4. 在 会 话 级 启用 GPORCA 
可 以 使 用 SET 命令 在 会 话 级 别 设置 优化 器 参数 : 


dbl=# set optimizer = on ; 
SET 


为 特定 查询 指定 GPORCA 优化 器 时 ， 在 运行 查询 前 执行 该 set 命令 。 





10.2.3 使 用 GPORCA 需要 考虑 的 问题 


1. 使 用 GPORCA 优化 器 的 前 提 条 件 

为 了 使 用 GPORCA 优化 器 执行 查询 ， 应 该 满足 以 下 条 件 : 
e 表 不 包含 多 列 分 区 键 。 

e 表 不 包含 多 级 分 区 。 

e 不 是 查询 仅 存 储 在 Master 上 的 表 ， 如 全 局 系统 表 。 


db1=# explain select * from pg attribute; 
QUERY PLAN 


Seq Scan on pg attribute (cost=0.00..62.70 rows=104880 width=103) 
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Settings: default hash table bucket number-24; optimizer-on 
Optimizer status: legacy query optimizer 
(3 rows) 


© 已 经 收集 了 分 区 表 的 根 分 区 统计 信息 。 

© 表 中 的 分 区 数 不 要 太 多 ， 如 果 一 个 表 的 分 区 数 超过 了 20000， 应 该 重新 设计 表 模式 。 

2. 确认 查询 使 用 的 优化 器 

启用 了 GPORCA 时 ， 可 以 从 EXPLAIN 查询 计划 的 输出 中 查看 一 个 查询 是 使 用 了 
GPORCA 还 是 老 的 优化 器 。 如 果 使 用 的 是 GPORCA， 在 查询 计划 的 最 后 会 显示 GPORCA 的 
版 本 : 

dbl=# explain select * from sales where yr qtr = 201706; 


QUERY PLAN 


Settings: default hash table bucket number-24; optimizer-on 
Optimizer status: PQO version 1.684 


(9 rows) 
如 果 查 询 使 用 了 老 的 优化 器 生成 执行 计划 ,输出 的 最 后 会 显示 “legacy query optimizer” : 


dbl=# explain select 1; 
QUERY PLAN 


Result (cost=0.00..0.01 rows=1 width=0) 

Settings: default hash table bucket number-24; optimizer=on 
Optimizer status: legacy query optimizer 

(3 rows) 


下 面 的 操作 只 会 出 现在 GPORCA 生成 的 执行 计划 中 ， 老 优化 器 不 支持 这 些 操作 。 
€ Assert operator 

@ Sequence operator 

@  DynamicIndexScan 
e 


DynamicTableScan 
€ Table Scan 


3. 生成 查询 优化 上 下 文 


GPORCA 可 以 生成 minidump 文件 描述 给 定 查询 的 优化 细节 ,该 文件 可 被 用 来 分 析 HAWQ 
的 问题 。minidump 文件 位 于 Master 的 数据 目录 下 ， 文 件 名 称 的 格式 为 : 


Minidump date time.mdp 


下 面 看 一 个 生成 minidump 文件 的 例子 。 
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(1) 运行 一 个 psql Bis, iX optimizer minidump 参数 为 always。 


[gpadmin@hdp3 ~]$ psql -d dbl 
psql (8.2.15) 
Type "help" for help. 


dbl=# set optimizer minidump-always; 
SET 


(2) 执行 一 个 查询 。 


dbl=# select * from t; 
a |b e 


(2 rows) 
(3) 查看 生成 的 minidump 文件 。 


[gpadmin@hdp3 ~]$ ls -1 /data/hawq/master/minidumps/ 

总 用 量 12 

Trw------- 1 gpadmin gpadmin 8949 4 H 11 17:07 
Minidump 20170411 170712 72720 2.mdp 

[gpadmin@hdp3 ~]$ 

(4) 运行 xmllint 将 minidump 文件 格式 化 ， 并 将 格式 化 后 内 容 输出 到 一 个 新 文件 。 

[gpadmin@hdp3 ~]$ xmllint --format 
/data/hawq/master/minidumps/Minidump_20170411_170712_72720_2.mdp > 
/data/hawq/master/minidumps/MyTest.xml 


(5) 查看 良好 格式 的 minidump 文件 。 


[gpadmin@hdp3 ~]$ cat /data/hawq/master/minidumps/MyTest .xm 


10.2.4 GPORCA 的 限制 


GPORCA 有 一 些 限制 , 也 正 是 因为 GPORCA 并 不 支持 所 有 的 HAWQ 特性 ，GPORCA 与 


老 优 化 器 才 会 在 HAWQ 中 并 存 。 
1. 不 支持 的 SQL 特性 
GPORCA 不 支持 以 下 SQL: 


€ PERCENTILE È 7 3k, 


dbl-£ explain select a, percentile cont (0.5) within group (order by b desc) 


db1-# from t group by a; 
QUERY PLAN 
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Settings: default hash table bucket number-24; optimizer=on 
Optimizer status: legacy query optimizer 

(24 rows) 

© CUBE f» GROUPING SETS 分 析 函 数 。 


db1=# explain select count(*) from t group by cube(a,b); 
QUERY PLAN 


Settings: default hash table bucket number-24; optimizer-on 
Optimizer status: legacy query optimizer 
(27 rows) 


2. 性 能 衰退 的 情况 

启用 GPORCA 时 ， 以 下 是 已 知 的 性 能 衰减 情况 : 

e 短 查询 。 对 于 短 查 询 来 说 ，GPORCA 为 了 确定 优化 的 查询 执行 计划 ， 可 能 带 来 额外 
的 开销 。 

@ ANALYZE. 启用 GPORCA 时 ，ANALYZE 命令 生成 分 区 表 根 分 区 的 统计 信息 ， 而 
老 的 优化 器 不 收集 此 统计 。 


| () “2 x 
U.S teen 
HAWQ 为 查询 动态 分 配 资源 ， 数 据 所 在 的 位 置 、 查 询 所 使 用 的 虚拟 段 数量 、 集 群 的 总 体 

健康 状况 等 因素 都 会 影响 查询 性 能 。 

1. 常用 优化 手段 

以 下 是 HAWQ 内 部 常用 的 优化 手段 ， 当 进行 了 适当 的 服务 器 参数 设置 后 ， 这 些 优化 是 系 
统 自动 实施 的 ， 理 解 它们 对 于 开发 高 性 能 应 用 大 有 神 益 。 对 用 户 来 说 ， 表 设计 与 SQL 语句 的 
写法 对 性 能 的 影响 很 大 ， 然 而 这 些 技术 对 大 部 分 数据 库 系 统 来 说 是 通用 的 ， 如 规范 化 设计 、 索 
引 设计 、 连 接 时 驱动 表 的 选择 、 利 用 提示 影响 优化 器 等 等 。 有 很 多 这 方面 的 资料 ， 本 书 不 展 
讨论 这 些 内容 。 

CL) 动态 分 区 消除 

HAWQ 有 两 种 分 区 消除 : 静态 消除 与 动态 消除 。 静 态 消 除 发 生 在 编译 期 间 ， 在 执行 计划 
生成 的 时 候 , 已 经 知道 哪些 分 区 会 被 使 用 。 而 动态 消除 发 生 在 运行 时 , 也 就 是 说 在 运行 的 时 候 ， 
才 会 知道 哪些 分 区 会 被 用 到 。 例如 , WHERE 字句 里 面包 含 一 个 函数 或 者 子 查询 用 于 返回 分 区 
键 的 值 。 查 询 过 滤 条 件 的 值 可 用 于 动态 分 区 消除 时 ， 查询 处 理 速 度 将 得 到 提升 。 该 特性 由 服务 
器 配置 参数 gp dynamic partition pruning 控制 ， 默 认 是 开启 的 。 
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[gpadmin@hdp3 ~]$ hawq config -s gp dynamic partition pruning 
GUC : gp dynamic partition pruning 
Value : on 
[gpadmin@hdp3 ~]$ 
(2) 内 存 优化 
HAWQ 针对 查询 中 的 不 同 操作 符 分 配 最 佳 内 存 ， 并 且 在 查询 处 理 的 各 个 阶段 动态 释放 和 
重新 分 配 内 存 。 


G) 自动 终止 资源 失控 的 查询 
当 服务 器 中 所 有 查询 占用 的 内 存 超过 一 定 阔 值 ， HAWQ 可 以 终止 某 些 查询 。HAWQ 的 资 
源 管 理 器 会 计算 得 到 一 个 为 Segment 分 配 的 虚拟 内 存 限 额 ， 再 结合 可 配 的 系统 参数 计算 阔 值 。 
Bl (E ib $E A X7: vmem threshold = (资源 管理 器 计算 的 虚拟 内 存 限额 + 
hawq re memory overcommit max) * runaway detector activation percent. 
hawq re memory overcommit max 参数 设置 每 个 物理 Segment 可 以 超过 资源 管理 器 动态 
分 配 的 内 存 限额 的 最 大 值 ， 默 认为 8192MB。 当 HAWQ 使 用 YARN 管理 资源 时 ， 为 了 避免 内 
存 溢出 错误 ， 应 该 为 该 参数 赋予 一 个 较 大 值 。runaway_detector_activation_percent 参数 设置 触 
发 自动 终止 查询 的 虚拟 内 存 限 额 百分比 , 默认 值 为 95， 如果 设置 为 100, 将 禁用 虚拟 内 存 检 测 
和 自动 查询 终止 。 
[gpadmin@hdp3 ~]$ hawq config -s hawq re memory overcommit max 
GUC : hawq re memory overcommit max 
Value 2891152 
[gpadmin@hdp3 ~]$ hawq config -s runaway detector activation percent 
GUC : runaway detector activation percent 
Value 2 95 
[gpadmin@hdp3 ~]$ 
当 一 个 物理 Segment (EAH MEAL He BIL TAP, HAWQ 就 从 内 存 消 耗 最 大 的 查 
询 开 始终 止 查询 ， 直 到 虚拟 内 存 的 使 用 低 于 指定 的 百分比 。 假 设 HAWQ 的 资源 管理 器 计算 得 
到 的 一 个 物理 Segment 的 虚拟 内 存 限 额 为 9GB，hawq_re_ memory overcommit max 设置 为 
1GB, runaway detector activation percent 设置 为 95， 那 么 当 虚 拟 内 存 使 用 超过 9.5GB IN, 
HAWQ 开始 终止 查询 。 
2. 查询 性 能 问题 排查 
当 一 个 查询 没有 达到 希望 的 执行 速度 时 ， 应 该 从 以 下 方面 检查 造成 查询 缓慢 的 可 能 原因 。 
(1) 检查 集群 健康 状况 ， 如 是 否 有 DataNode 或 Segment 宕 机 ， 是 否 存 在 磁盘 损坏 等 。 
(2) 检查 表 的 统计 信息 ， 确 认 是 否 需 要 执行 分 析 。 
G) 检查 查询 的 执行 计划 确定 瓶颈 。 对 于 某 些 操作 如 Hash Join， 如 果 没有 足够 的 内 存 ， 该 操 
作 会 使 用 溢出 文件 (spill files) 。 相 对 于 完全 在 内 存 中 执行 的 操作 ， 磁 盘 洪 出 文件 会 慢 得 多 。 
(4) 检查 查询 计划 中 的 数据 本 地 化 统计 。 
(5) 检查 资源 队列 状态 。HAWQ 的 pg resqueue 系统 目录 表 保 存 资源 队列 信息 。 还 可 以 
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查询 pg resqueue status 视图 检查 资源 队列 的 运行 时 状态 。 
(6) 分 析 资 源 管理 器 状态 。 这 一 点 可 以 参考 http://hawq.incubator.apache.org/docs/ 
userguide/2.1.0.0-incubating/resourcemgmt/ResourceManagerStatus.html 。 





3. 数据 本 地 化 统计 


EXPLAIN ANALYZE 语句 可 以 获得 数据 本 地 化 统计 : 


db1=# explain analyze select * from t; 


QUERY PLAN 


Data locality statistics: 
data locality ratio: 1.000; virtual segment number: 1; different host number: 
1; virtual segment number per host (avg/min/max): (1/1/1); segment size (avg/min/max) : 
(56.000 B/56 B/56 B); segment size with penalty(avg/min/max): (56.000 B/56 B/56 
B); continuity (avg/min/max): (1.000/1.000/1.000); DFS metadatacache: 0.138 ms; 
resource allocation: 1.159 ms; datalocality calculation: 0.252 ms. 
Total runtime: 8.205 ms 


(17 rows) 


表 10-1 说 明 数据 本 地 化 相关 度量 值 的 含义 ， 用 这 些 信息 可 以 检查 潜在 的 查询 性 能 问题 。 


表 10-1 数据 本 地 化 度量 值 含 义 





统计 项 


data locality ratio 


number of virtual segments 


different host number 





描述 


表示 查询 总 的 本 地 化 读 取 比 例 。 比 例 越 低 ， 从 远程 节点 读 取 的 数据 越 多 。 
由 于 远程 读 取 HDFS 需要 网 络 IO0， 可 能 增加 查询 的 执行 时 间 。 对 于 哈 希 
分 布 表 ， 一 个 文件 中 的 所 有 数据 块 将 由 一 个 Segment 处 理 ， 因 此 如 果 
HDFS 上 的 数据 重新 分 布 ， 比 如 做 了 HDFS Rebalance， 那 么 数据 本 地 化 
比例 将 会 降低 。 这 种 情况 下 ， 可 以 执行 CREATE TABLE AS SELECT if 
句 ， 通 过 重建 表 手工 执行 数据 的 重新 分 布 

查询 使 用 的 虚拟 段 数量 。 通 常 虚拟 段 数 越 多 ， 查 询 执行 得 越 快 。 如 果 虚 
拟 段 太 少 ， 需 要 检查 default hash table bucket number 、 
hawq rm nvseg perquery limit 或 哈 希 分 布 表 的 桶 数 是 否 过 小 

表示 有 多 少 主机 用 于 运行 此 查询 。 当 虚拟 段 数量 大 于 等 于 HAWQ REE 
机 总 数 时 ， 所 有 主机 都 应 该 被 使 用 。 对 于 一 个 大 查询 ， 如 果 该 度量 值 小 
于 主机 数 ， 通 常 意味 着 有 些 主机 宕 机 了 。 这 种 情况 下 ， 应 该 执行 “select* 
from gp_segment_configuration ”语句 检查 节点 状态 





segment size and segment size 


with penalty 





“segment size” 表 示 一 个 虚拟 段 处 理 的 数据 量 (平均 /最 小 /最 大 ) ， 以 字 
PAH. “segment size with penalty” 表 示 一 个 虚拟 段 处 理 的 包含 了 远 
程 读 取 的 数据 量 〈 平 均 /最 小 /最 大 ) ， 以 字 节 为 单位 ， 远 程 读 取 量 计算 公 
式 为 “net disk ratio" * block size。 包 含 远 程 读 取 的 虚拟 段 应 该 比 只 有 
本 地 读 取 的 虚拟 段 处 理 更 少 的 数据 。“net_disk_ratio” 配 置 参 数 用 于 测量 
远程 读 取 比 本 地 读 取 慢 多 少 ， 默 认 值 为 1.01。 可 依据 不 同 的 网 络 环境 调 
整 该 参数 的 值 
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GR) 


























统计 项 描述 

continuity 间断 地 读 取 HDFS 文件 会 引入 额外 的 查找 ， 减 慢 查 询 的 表 扫描 ， 一 个 较 
低 的 continuity 值 说 明文 件 在 DataNode 上 的 分 布 并 不 连续 

DFS metadatacache 表示 查询 元 数据 缓存 的 时 间 。HDFS 块 信息 被 HAWQ 的 DFS Metadata 
Cache process 进程 缓存 。 如 果 缓 存 没有 命中 ， 该 时 间 会 增加 

resource allocation 表示 从 资源 管理 器 获取 资源 所 花 的 时 间 

datalocality calculation 表示 运行 将 HDFS 块 分 配给 虚拟 段 的 算法 和 计算 数据 本 地 化 比例 的 时 间 

4. 虚拟 段 数量 


执行 查询 使 用 的 虚拟 段 数量 直接 影响 查询 并 行 度 ， 从 而 影响 查询 性 能 。 


(1) 影响 虚拟 段 数 量 的 因素 
分 配给 查询 的 虚拟 段 数量 受 以 下 因素 影响 : 


@ ”查询 成 本 。 大 查询 使 用 更 多 的 虚拟 段 。 

查询 运行 时 的 可 用 资源 情况 。 如 果 资 源 队列 中 有 更 多 的 资源 ， 查 询 就 会 使 用 它 。 

哈 希 分 布 表 及 其 桶 数 。 如 果 只 查询 一 个 哈 希 分 布 表 ,查询 的 并 行 度 是 固定 的 ,等 于 创 

建 哈 希 表 时 分 配 的 桶 数 。 如 果 查 询 中 既 有 哈 希 分 布 表 又 有 随机 分 布 表 ，, 当 所 有 哈 希 表 

都 具有 相同 的 桶 数 ， 并 且 随 机 表 的 大 小 不 大 于 哈 希 表 大 小 的 1.5 倍 时 ，, 分配 的 虚拟 段 

数 等 于 桶 数 。 和 否则， 分 配 的 虚拟 段 数 依赖 于 查询 成 本 ， 此 时 哈 希 表 的 虚拟 段 分 配 行为 

与 随机 表 类 似 。 

e ”查询 类 型 。 对 于 包含 外 部 表 或 用 户 定义 函数 (UDF) 的 查询 ， 计 算 其 查询 成 本 比较 
困难 。 对 于 此 类 查询 ， 分 配 的 虚拟 段 数量 由 hawg rm nvseg perquery limit 和 
hawq rm nvseg perquery perseg limit 参数 ， 以 及 定义 外 部 表 时 ON 子 句 中 的 位 置 列 
表 数 量 所 控制 。 如 果 查 询 结果 是 装载 一 个 哈 希 表 (X INSERT into hash table) ， 虚 
拟 段 的 数量 等 于 结果 哈 希 表 的 桶 数 。COPY 或 ANALYZE 等 SQL 命令 将 使 用 不 同 的 
策略 计算 虚拟 段 数量 。 

(2) 分 配 虚 拟 段 的 一 般 规则 
如 果 有 足够 的 可 用 资源 ，HAQW 使 用 以 下 一 般 规则 确定 为 查询 分 配 的 虚拟 段 数量 : 


€ SELECT 列表 中 仅 包含 随机 分 布 表 : 虚拟 段 数量 依赖 于 表 大 小 。 

€ SELECT 列表 中 仅 包含 哈 希 分 布 表 : 虚拟 段 数量 依赖 于 表 的 桶 数 。 

€ SELECT 列表 中 既 有 随机 分 布 表 ， 又 有 哈 希 分 布 表 : 如 果 所 有 哈 希 表 都 具有 相同 的 桶 
数 ,并 且 随 机 表 的 大 小 不 大 于 哈 希 表 大 小 的 1.5 倍 , 分 配 的 虚拟 段 数 等 于 桶 数 。 否 则 ， 
分 配 的 虚拟 段 数 依赖 于 随机 表 的 大 小 。 

e 查询 中 存在 用 户 定义 函数 : 虚拟 段 数量 依赖 于 hawq rm nvseg perquery limit 和 
hawq rm nvseg perquery perseg limit 参数 。 
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查询 中 存在 PXF 外 部 表 : HAA SRM default hash table bucket number 参数 。 
查询 中 存在 gpfdist 外 部 表 : 虚拟 段 数量 不 少 于 location 列表 中 的 位 置 数 。 

CREATE EXTERNAL TABLE PA: 虚拟 段 数量 对 应 命令 中 ON 子 句 的 位 置 列表 数量 。 
蛤 希 分 布 表 与 本 地 文件 互 找 数 据 : 虚拟 段 数量 依赖 于 哈 希 表 的 桶 数 。 

复制 随机 分 布 表 数 据 到 本 地 文件 : 虚拟 段 数量 依赖 于 表 大 小 。 

将 本 地 文件 内 容 复制 到 随机 分 布 表 中 : 虚拟 段 数量 是 固定 值 ， 如 果 资 源 足 够 ， 为 6。 
ANALYZE 表 : 分 析 一 个 非 分 区 表 比 等 量 的 分 区 表 使 用 更 多 的 虚拟 段 。 

哈 希 分 布 结 果 表 : 虚拟 段 数量 等 于 结果 哈 希 表 的 桶 数 。 


OU. gll 


遇 到 性 能 不 良 的 查询 时 ， 最 常用 的 调查 手段 就 是 查看 执行 计划 。HAWAQ 选择 与 每 个 查询 
相 匹 配 的 查询 计划 ， 查 询 计划 定义 了 HAWQ 在 并 行 环 境 中 如 何 运 行 查 询 。 查 询 优化 器 根据 数 
据 库 系统 维护 的 统计 信息 选择 成 本 最 低 的 查询 计划 。 成 本 以 磁盘 VO 作为 考量 , 以 查询 需要 读 
取 的 磁盘 页 数 为 测量 单位 。 优 化 器 的 目标 就 是 制定 最 小 化 执行 成 本 的 查询 计划 。 

和 其 他 SQL 数据 库 一 样 ，HAWQ 也 是 用 EXPLAIN 命令 查看 一 个 给 定 查询 的 执行 计划 。 
EXPLAIN 会 显示 查询 优化 器 估计 出 的 计划 成 本 。EXPLAIN ANALYZE 命令 会 实际 执行 查询 
语句 ， 它 除了 显示 估算 的 查询 成 本 , 还 会 显示 实际 执行 时 间 ， 从 这 些 信 息 可 以 分 析 优 化 器 所 做 
的 估算 与 实际 之 间 的 接近 程度 。 

再 次 强调 在 HAWQ 中 老 的 优化 器 与 GPORCA 并 存 ， 默 认 的 查询 优化 器 为 GPORCA。 
HAWQ 尽 可 能 使 用 GPORCA 生成 执行 计划 。GPORCA 和 老 优 化 器 的 EXPLAIN 输出 是 不 同 的 : 

dbl=# set optimizer=on; 

SET 

db1=# explain select * from t; 


QUERY PLAN 


Gather Motion 1:1 (slicel; segments: 1) (cost=0.00..431.00 rows=2 width-12) 
-> Table Scan on t (cost=0.00..431.00 rows=2 width=12) 

Settings: default hash table bucket number-24; optimizer=on 

Optimizer status: PQO version 1.684 

(4 rows) 


dbl=# set optimizer=off; 
SET 
dbl=# explain select * from t; 
QUERY PLAN 
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Gather Motion 1:1 (slicel; segments: 1) (cost=0.00..1.02 rows=2 width=12) 
-» Append-only Scan on t (cost-0.00..1.02 rows-2 width=12) 

Settings: default hash table bucket number-24; optimizer-off 

Optimizer status: legacy query optimizer 

(4 rows) 


1. 读 取 EXPLAIN 的 输出 


查询 计划 的 输出 是 一 个 由 节点 构成 的 树 形 结构 ,每 个 节点 表示 一 个 单一 操作 , 例如 表 扫 描 、 
连接 、 聚 合 、 排 序 等 等 。 查 询 计划 应 该 由 底 向 上 进行 读 取 ， 每 个 节点 操作 返回 的 行 提供 给 直接 
上 级 节点 。 最 底层 的 节点 通常 为 一 个 表 扫 描 操作 ， 连 接 、 聚 合 、 排 序 等 其 他 操作 节点 在 表 扫 描 
节点 之 上 。 计 划 的 顶层 通常 为 motion 节点 ， 如 redistribute、broadcast 或 gather motions。 在 查 
询 执行 期 间 ， 这 些 操作 将 在 节点 间 移 动 数据 行 。 
计划 树 中 的 每 个 节点 对 应 EXPLAIN 输出 中 的 一 行 , 显示 基本 的 节点 类 型 和 为 该 操作 估算 
的 执行 成 本 。 
€ cost: 读 取 磁 盘 页 的 测量 单位 。1.0 表示 一 次 顺序 磁盘 页 读 取 。 前 一 个 值 表示 获取 第 
一 行 的 成 本 估算 , 后 一 个 值 表示 获取 全 部 行 的 总 成 本 估算 。 总 成 本 假定 查询 返回 所 有 
行 ， 但 当 使 用 LIMIT 时 ， 并 不 返回 全 部 的 行 ， 因 此 这 种 情况 下 的 总 成 本 是 不 对 的 。 
需要 注意 的 是 , 节点 成 本 包含 了 其 子 节点 的 成 本 ,因此 顶层 节点 的 成 本 就 是 该 计划 执 
行 的 总 成 本 估算 , 也 就 是 优化 器 认为 的 最 小 成 本 。 而 且 成 本 仅 反映 了 查询 优化 器 考虑 
的 计划 执行 成 本 ， 不 包括 将 结果 行 传送 到 客户 端的 开销 。 
€ rows: 该 节点 输出 的 总 行 数 。 此 行 数 通常 会 少 于 节点 需要 扫描 或 处 理 的 行 数 ， 反 映 了 
对 WHERE 条 件 选择 性 的 估算 。 理 想 情况 下 ， 顶 层 节 点 的 估算 值 应 该 接近 查询 实际 
返回 的 行 数 。 
€ width: 该 节点 输出 的 所 有 行 的 总 字 节 数 。 


EXPLAIN 输出 读 取 示 例 。 

















dbl=# explain select * from t where b=1; 
QUERY PLAN 


Gather Motion 1:1 (slicel; segments: 1) (cost=0.00..431.00 rows-1 width=12) 
-> Table Scan on t (cost=0.00..431.00 rows=1 width=12) 
Filter: b = 1 
Settings: default_hash table bucket_number=24; optimizer=on 
Optimizer status: PQO version 1.684 
(5 rows) 


查询 计划 的 EXPLAIN 输出 只 有 5 行 ,其 中 最 后 一 行 表示 生成 该 计划 的 优化 器 是 GPORCA， 
倒数 第 二 行 表 示 哈 希 桶 数 和 优化 器 等 基本 参数 的 设置 。 这 两 行 不 属于 查询 计划 树 。 

现在 开始 自 底 向 上 读 取 计 划 。 底 层 是 一 个 表 扫 描 节 点 ， 顺 序 扫描 t 表 。WHERE 子 句 表现 
为 一 个 过 滤 条 件 , 表示 扫描 操作 会 检查 扫描 到 的 每 一 行 是 否 满足 过 滤 条 件 , 并 且 只 向 直接 上 级 
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节点 返回 满足 条 件 的 行 。 





扫描 操作 的 结果 传 给 上 级 的 gather motion 操作 。 在 HAWQ 中 ，Segment 实例 向 Master 实 


例 发 送 数据 即 为 gather motion 操作 。 该 操作 在 并 行 查询 执行 计划 的 slicel 分 片 中 完成 , 并 且 该 
分 片 只 在 一 个 Segment 上 执行 。 正 如 介绍 优化 器 时 所 述 ， 查 询 计划 被 分 成 slice， 因 此 Segment 





可 以 并 行 执行 部 分 查询 计划 。 


该 计划 估算 的 启动 成 本 (返回 首 行 的 成 本 ) 为 0， 总 成 本 为 431 个 磁盘 页 读 取 ， 优 化 器 估 
算 查询 返回 1 行 。 这 是 一 个 最 简单 的 示例 ， 只 有 两 步 操 作 ， 实 际 的 EXPLAIN 可 能 复杂 得 多 。 





2. 读 取 EXPLAIN ANALYZE 的 输出 


与 EXPLAIN 不 同 ，EXPLAIN ANALYZE 命令 不 但 生成 执行 计划 ， 还 会 实际 执行 查询 语句 。 


db1=# select * from 七 7 
ce |] dey || re 
sae 


(0 rows) 


db1=# explain insert into t values (1,1,1); 
QUERY PLAN 


Insert (slice0; segments: 1) (rows=1 width=0) 


-» Redistribute Motion 1:1 (slicel; segments: 1) (cost=0.00.. 


width-0) 
-» Result (cost=0.00..0.01 rows-1 width=0) 


Settings: default hash table bucket number-24; optimizer-off 
Optimizer status: legacy query optimizer 


(5 rows) 


db1=# select * from t; 
albie 
a 

(0 rows) 


db1=# explain analyze insert into t values (1,1,1); 
QUERY PLAN 


Insert (slice0; segments: 1) (rows=1 width=0) 


-» Redistribute Motion 1:1 (slicel; segments: 1) (cost=0.00.. 


width-0) 
Rows out: Avg 1.0 rows x 1 workers at destination. 
Max/Last(seg0:hdp3/seg0:hdp3) 1/1 rows with 14/14 ms to end 
, Start offset by 161/161 ms. 
-» Result (cost=0.00..0.01 rows-1 width=0) 


0.01 rows=1 


0.01 rows=1 


Rows out: Avgl.0rowsxlworkers. Max/Last (seg0:hdp3/seg0:hdp3) 
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1/1 rows with 0.004/0.004 ms to first 
row, 0.005/0.005 ms to end, start offset by 176/176 ms. 


Total runtime: 210.536 ms 
(18 rows) 


dbl-4 select * from t; 


alblie 
erem 
PLEN sto Nat 
(1 row) 


EXPLAIN ANALYZE 显示 优化 器 的 估算 成 本 与 查询 的 实际 执行 成 本 ， 因 此 可 以 分 析 估 算 
与 实际 的 接近 程度 。EXPLAIN ANALYZE 的 输出 还 显示 如 下 内 容 : 
e ”查询 总 的 执行 时 间 ， 单 位 是 毫秒 。 
e ”查询 计划 每 个 分 片 使 用 的 内 存 ， 以 及 为 整个 查询 语句 估算 的 内 存 。 
e ”查询 分 发 器 的 统计 信息 ， 包括 当前 查询 使 用 的 执行 器 数量 ( 总 数 /缓存 数 / 新 连接 数 ) ， 
分 发 时 间 (总 时 间 / 连 接 建立 时 间 / 分 发 数据 时 间 ) ， 及 其 分 发 数据 、 执 行 器 消耗 、 释 
放 执行 器 的 时 间 细 节 (最 大 /最 小 /平均 ) 。 


€ 如 表 10-1 所 示 的 数据 本 地 化 统计 信息 。 

€ 节点 操作 涉及 的 Segment (workers) 数量 ， 只 对 返回 行 的 Segment 计数 。 

@ 节点 操作 输出 的 最 多 行 数 和 用 时 最 长 的 Segment 统计 。 

© 一 个 操作 中 产生 最 多 行 的 Segment id. 

@ ”操作 返回 首 行 和 返回 所 有 行 所 用 的 时 间 (毫秒 ) ， 如 果 两 个 时 间 相同 , 输出 中 省 略 返 
回首 行 的 时 间 。 

e ”连接 操作 使 用 的 内 存 Cwork mem) 。 如 果 内 存 不 足 ， 计 划 显 示 溢 出 到 磁盘 的 数据 量 ， 


及 其 受到 影响 的 Segment 数 ， 例 如 : 


Work mem used: 64K bytes avg, 64K bytes max (seg0) . 
Work mem wanted: 90K bytes avg, 90K byes max (seg0) to lessen 
workfile I/O affecting 2 workers. 


EXPLAIN ANALYZE 输出 读 取 示 例 。 为 了 方便 与 前 面 的 EXPLAIN 做 对 比 ， 执 行 同样 的 
查询 语句 。 


dbl=# explain analyze select * from t where b=1; 
QUERY PLAN 
Gather Motion 1:1 (slicel; segments: 1) (cost=0.00..431.00 rows-1 width=12) 
Rows out: Avg 1.0 rows x 1 workers at destination. Max/Last (seg-1:hdp3/seg-1:hdp3) 
1/1 rows with 11/11 ms to end, start offset by 1.054/1.054 ms. 
-> Table Scan on t (cost=0.00..431.00 rows-1 width=12) 
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Filter: b = 1 
Rows out: Avg 1.0 rows x 1 workers. Max/Last (seg0:hdp3/seg0:hdp3) 1/1 
rows with 2.892/2.892 ms to first row, 2.989/2.989 ms to end, start offset by 
8.579/8.579 ms. 
Slice statistics: 
(slice0) Executor memory: 163K bytes. 
(slicel) Executor memory: 279K bytes (seg0:hdp3). 
Statement statistics: 
Memory used: 262144K bytes 
Settings: default hash table bucket number-24; optimizer-on 
Optimizer status: PQO version 1.684 
Dispatcher statistics: 
executors used(total/cached/new connection): (1/1/0); dispatcher 
time(total/connection/dispatch data): (0.342 ms/0.000 ms/0.095 ms). 
dispatch data time (max/min/avg): (0.095 ms/0.095 ms/0.095 ms); consume 
executor data time (max/min/avg): (0.020 ms/0.020 ms/0.020 ms); free executor 
time (max/min/avg): (0.000 ms/0.000 ms/0.000 ms). 
Data locality statistics: 
data locality ratio: 1.000; virtual segment number: 1; different host number: 
1; virtual segment number per host (avg/min/max): (1/1/1); segment size (avg/min/max): 
(24.000 B/24 B/24 B); segment size with penalty(avg/min/max): (24.000 B/24 B/24 
B); continuity(avg/min/max): (1.000/1.000/1.000); DFS metadatacache: 0.092 ms; 
resource allocation: 0.911 ms; datalocality calculation: 0.221 ms. 
Total runtime: 13.304 ms 
(18 rows) 


与 EXPLAIN 不 同 相 比 ， 这 次 的 输出 长 得 多 ， 有 18 行 。 第 11 行 表示 哈 希 桶 数 和 优化 器 等 
基本 参数 的 设置 ， 第 12 行 表示 生成 该 计划 的 优化 器 为 GPORCA。 这 两 行 与 EXPLAIN 的 输出 
相同 。 前 5 行 是 执行 计划 树 ， 比 EXPLAIN 的 输出 多 出 第 2、5 两 行 ， 这 两 行 是 节点 的 实际 执 
行情 况 ， 包 括 返回 数据 行 数 、 首 未 行 时 间 、 最 大 最 长 Segment 等 。Table Scan 操作 只 有 一 个 
Segment (seg0) 返回 行 ， 并 且 只 返回 1 行 。Max/Last 统计 是 相同 的 ， 因 为 只 有 一 个 Segment 
返回 行 。 找 到 首 行使 用 的 时 间 为 2.892 毫秒 , 返回 所 有 行 的 时 间 为 2.989 毫秒 。 注 意 start offset 
by， 它 表示 的 是 从 分 发 器 开始 执行 操作 到 Segment 返回 首 行经 历 的 时 间 为 8.579 毫秒 。 查 询 实 
际 返回 行 数 与 估算 返回 的 行 数 相同 。gather motion 操 作 接收 1 行 ,并 传送 到 Master。gather motion 
节点 的 时 间 统计 包含 了 其 子 节点 Table Scan 操作 的 时 间 。 最 后 一 行 显示 该 查询 总 的 执行 时 间 为 
13.304 毫秒 。 

输出 中 的 其 他 行 是 各 种 统计 信息 ， 包 括 分 片 统计 、 语 句 统计 、 分 发 器 统计 、 数 据 本 地 化 统 
计 等 。 

3. 分 析 查 询 计划 中 的 问题 

查询 慢 时 ， 需 要 查看 执行 计划 并 考虑 以 下 问题 : 
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计划 中 的 某 些 特定 操作 是 否 花 费 了 很 长 时 间 ? 找到 最 消耗 时 间 的 操作 并 分 析 原因 。 例 
如 ， 哈 希 表 的 扫描 时 间 出 乎 意料 的 长 , 可 能 是 由 于 数据 本 地 化 程度 低 , 导致 节点 间 的 
网 络 IO 花费 大 量 时 间 。 此 时 重新 装载 数据 可 能 提高 查询 速度 。 

查询 优化 器 估算 的 行 数 是 否 与 实际 的 相近 ? 运行 EXPLAIN ANALYZE 检 查实 际 与 估 
算 的 返回 行 数 是 否 接近 。 如 果 相 差 很 多 ， 收 集 相 关 表 列 的 统计 信息 。 

是 否 在 计划 的 早期 应 用 了 过 滤 谓 词 ? 在 计划 早期 应 用 选择 过 滤 使 得 向 上 层 节点 传递 
的 行 更 少 。 若 查询 计划 错误 地 估计 了 查询 谓词 的 选择 性 ， 收 集 相 关 表 列 的 统计 信息 。 
也 可 以 尝试 改变 SQL 语句 中 WHERE 子 句 中 列 的 顺序 (HA Filter 显示 的 顺序 ) 。 
查询 优化 器 是 否 选 择 了 最 好 的 表 连 接 顺 序 ? 过 滤 行 数 越 多 的 表 越 应 该 先 处理 。 如果 计 
划 没 有 选择 优化 的 连接 顺序 ， 可 能 需要 收集 关联 列 的 统计 信息 ， 或 者 设置 
join collapse limit 配置 参数 为 1。 后 者 会 导致 查询 按 SQL 语句 中 指定 的 连接 顺序 执行 。 
优化 器 是 否 使 用 了 分 区 消除 ? 确认 分 区 策略 和 查询 谓词 中 的 过 滤 条 件 是 否 匹配 。 
优化 器 是 否 选择 了 适当 的 哈 希 聚合 与 哈 希 连接 ? 哈 希 操作 通常 比 其 他 的 连接 或 聚合 
KAR, 因为 行 的 比较 和 排序 在 内 存 中 完成 ,而 不 是 读 写 磁盘 。 为 了 让 优化 器 适当 地 
选择 哈 希 操作 , 必须 有 足够 的 可 用 内 存 ,以 存储 估算 的 行 数 .如 果 可 能 ,运行 EXPLAIN 
ANALYZE 显示 查询 需要 的 内 存 和 溢出 到 磁盘 的 数据 量 。 例 如, 以 下 输出 显示 查询 使 
用 了 23430KB 内 存 ， 还 需要 33649KB， 此 时 考虑 调整 内 存 相关 配置 优化 查询 。 


Work mem used: 23430K bytes avg, 23430K bytes max (seg0) . 
Work mem wanted: 33649K bytes avg, 33649K bytes max (seg0) to lessen 


workfile I/O affecting 2 workers. 

必须 注意 ， 不 要 在 HAWQ 中 使 用 PL/pgSQL 函数 生成 动态 查询 的 执行 计划 ， 这 可 能 引起 
服务 器 崩溃 ! 下 面 的 例子 在 PostgreSQL 8.4.20 中 可 以 正常 执行 ,但 在 HAWQ2.1.1 中 数据 库 直 
接 宕 机 。 


dbl=# create or replace function explain plan func() returns varchar as $$ 


declare 


loop 


a varchar; 
b int; 


c varchar; 


begin 
[cn 
b= 1; 
for c in execute 'explain select * from t where b=' || cast(b as varchar) 
ama N etna i ei 
end loop; 


return a; 
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end; 
$$ 
language plpgsql 
volatile; 
CREATE FUNCTION 
dbl-£ select explain plan func(); 
explain plan func 


Seq Scan on t (cost-0.00..34.25 rows-10 width-12) 
Filter: (b = 1) 
(1 行 记录 ) 


10.5 we 


HAWQ 中 新 旧 查 询 优化 器 并 存 , 优先 选择 新 的 GPORCA 优化 器 , 它 针 对 分 区 表 、 子 查询 、 
WITH、INSERT、 去 重 聚合 等 查询 类 型 有 所 改进 。 查 询 计 划 是 在 Segment 上 分 片 并 行 执行 的 。 
数据 本 地 化 情况 ,为 查询 分 配 的 虚拟 段 数量 对 查询 性 能 具有 直接 影响 。 同 很 多 数据 库 系 统 类 似 ， 
EXPLAIN 用 于 语句 输出 查询 执行 计划 。 学 会 读 懂 EXPLAIN 的 信息 ， 对 于 排查 性 能 问题 十 分 
HH EXPLAIN ANALYZE 会 实际 执行 SQL 语句 , 并 且 比 单纯 的 EXPLAIN 输出 更 多 的 信息 。 
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HAWQ 的 高 可 用 性 体现 在 三 个 不 同 层次 : (1) 数据 库 备 份 与 恢复 机 制 ; (2) HAWQ Master 
高 可 用 ; (3) HAWQ 文件 空间 高 可 用 。 其 中 第 三 个 依赖 于 Hadoop NameNode HA. 虽然 HDFS 
的 副本 集 特性 提供 了 一 定 的 数据 高 可 用 性 ， 但 默认 安装 的 Hadoop 集群 ，NameNode 仍然 存在 
单 点 故障 风险 。 本 章 首 先 讨 论 HAWQ 数据 库 的 备份 与 恢复 方法 ， 然 后 介绍 HAWQ Master 的 
配置 过 程 ， 最 后 说 明 如 何在 HDP HA 基础 之 上 配置 HAWQ 文件 空间 高 可 用 。 


11.1 备份 与 恢复 


HAWQ 作为 一 个 数据 库 管 理 系统 ， 备 份 与 恢复 是 其 必 备 功能 之 一 。HAWQ 的 用 户 数据 存 
储 在 HDFS 上 ， 系 统 主 目录 存储 在 Master 节点 本 地 主机 。HDFS 上 的 每 个 数据 块 默认 自 带 三 
份 副 本 ， 而 且 一 个 数据 块 的 三 份 副本 不 会 存储 在 同一 个 DataNode 上 ， 因 此 一 个 DataNode 节 
点 失效 不 会 造成 数据 丢失 。 而 配置 了 HDFS NameNode HA 与 HAWQ Master HA 后 , NameNode 
和 Master 的 单 点 故障 问题 也 得 到 了 解决 。 似 乎 HAWQ 没有 提供 额外 备份 功能 的 必要 。 

事实 上 ，Hadoop 集群 上 存储 和 处 理 的 数据 量 通常 非常 大 ， 大 到 要 想 做 全 备份 ， 在 时 间 与 
空间 消耗 上 都 是 不 可 接受 的 。 这 也 就 是 HDFS 的 数据 块 自 带 副 本 容错 的 主要 原因 。 那 么 说 到 
HAWQ 数据 库 提 供 的 数据 备份 功能 ， 作 为 高 可 用 性 的 补充 ， 主 要 体现 在 三 个 方面 : 一 是 自然 
地 从 PostgreSQL 继承 ， 本 身 就 带 备份 功能 ， 二 是 提供 了 一 种 少量 数据 迁移 的 简便 方法 ， 比 如 
把 一 个 小 表 从 生产 环境 迁移 到 到 测试 环境 ; 三 是 处 理 人 为 误 操作 引起 的 数据 问题 , 例如 误 删除 
一 个 表 时 ， 就 可 以 使 用 备份 进行 恢复 ， 将 数据 丢失 最 小 化 。 


11.1.1 备份 方法 

HAWQ 提供 以 下 三 个 应 用 程序 帮助 用 户 备份 数据 : 

€ gpfdist 

e PXF 

© pg dump 

gpfdist 与 PXF 是 并 行 数据 装载 /卸载 工具 , 能 提供 最 佳 性 能 .pg_dump 是 一 个 从 PostgreSQL 
继承 的 非 并 行 应 用 程序 。 除 此 之 外 ， 有 些 情况 下 还 需要 从 ETL 过 程 备份 原始 数据 ， 比 如 将 抽 


取 到 的 源 数据 装载 到 多 份 目 标 中 。 用 户 可 以 根据 自己 的 实际 场景 选择 适当 的 备份 /恢复 方法 。 
1. gpfdist 和 PXF 


用 户 可 以 在 HAWQ 中 使 用 gpfdist 或 PXF 执行 并 行 备份 ， 将 数据 卸载 到 外 部 表 中 。 备 份 
文件 可 以 存储 在 本 地 文件 系统 或 HDFS 上 。 人 恢复 表 的 过 程 就 是 简单 将 数据 从 外 部 表 装 载 回 数 


a) 备份 步骤 

执行 以 下 步骤 并 行 备份 : 

D 检查 数据 库 大 小 ， 确 认 文 件 系统 有 足够 的 空间 保存 备份 文件 。 
© 使 用 pg_dump 应 用 程序 导出 源 数据 库 的 schema. 

© 在 目标 数据 库 中 ， 为 每 个 需要 备份 的 表 创 建 一 个 可 写 外 部 表 。 
@ 向 新 创建 的 外 部 表 中 装载 表 数 据 。 


需要 注意 的 是 , 需 将 所 有 表 的 INSERT 语句 放 在 一 个 单独 的 事务 中 , 以 避免 因 在 备份 期 间 
执行 任何 数据 操作 而 产生 问题 。 

(2) 恢复 步骤 

执行 以 下 步骤 从 备份 还 原 : 

(D 创建 一 个 数据 库 用 于 恢复 。 

Q) 从 schema 文件 (在 pg, dump 过 程 中 被 创建 ) 重建 schema. 

@ 为 数据 库 中 的 每 个 表 建立 一 个 可 读 外 部 表 。 

@ 从 外 部 表 向 实际 的 表 中 导入 数据 。 

© 装载 完成 后 ， 运 行 ANALYZE 命令 ， 保 证 基于 最 新 表 统 计 信息 生成 优化 的 查询 计划 。 


(3) gpfdist Ej PXF 备份 的 区 别 
gpfdist 与 PXF 备份 的 区 别 体现 在 以 下 方面 : 


€  gpfdist 在 本 地 文件 系统 存储 备份 文件 ，PXF 将 文件 存储 在 HDFS E. 
€ gpfdist 只 支持 平面 文本 格式 ，PXF 还 支持 如 AVRO 的 二 进 制 格式 ， 以 及 用 户 自 定义 
的 格式 。 
€  gpfdist 不 支持 生成 压缩 文件 ，PXF 支持 压缩 用户 可 以 在 Hadoop 中 指定 使 用 的 压缩 
算法 ， 如 org.apache.hadoop.io.compress.GzipCodec。 
€  gpfdist 和 PXF 都 提供 快速 装载 性 能 ， 但 gpfdist 要 比 PXF 快 得 多 。 
2. pg_dump 与 pg_restore 
HAWQ 支持 PostgreSQL 的 备份 与 还 原 应 用 程序 ，pg_dump 和 pg restore. pg dump 应 用 
在 Master 节点 所 在 主机 上 创建 一 个 dump 文件 ， 其 中 包含 所 有 注册 Segment 中 的 数据 。 
pg_restore 从 pg_dump 创建 的 备份 中 还 原 一 个 HAWQ 数据 库 。 大 多 数 情 况 下 ， 整 库 备 份 /还 原 
是 不 切实 际 的 ， 因 为 一 般 在 Master 节点 上 没有 足够 的 磁盘 空间 存储 整个 分 布 式 数据 库 的 单个 
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备份 文件 。HAWQ 支持 这 些 应 用 的 主要 目的 是 用 于 从 PostgreSQL 向 HAWQ 迁移 数据 。 下 面 
是 一 些 pg_dump 用 法 的 简单 示例 。 

为 数据 库 mytest 创建 一 个 备份 ， 导 出 数据 文件 格式 为 tar: 

$ pg_dump -Ft -f mytest.tar mytest 

使 用 自 定义 格式 创建 一 个 压缩 的 备份 ， 压 缩 级 别 为 3: 

$ pg dump -Fc -Z3 -f mytest.dump mytest 

使 用 pg restore 从 备份 还 原 : 

$ pg_restore -d new db mytest.dump 

3. 原始 数据 备份 

大 多 数 情况 使 用 gpfdist 或 PXF 并 行 备份 能 够 很 好 地 工作 ,但 以 下 两 种 情况 不 能 执行 并 行 
备份 与 还 原 操作 : 

e 周期 性 增 量 备份 。 

e 导出 大 量 数 据 到 外 部 表 ， 原 因 是 此 过 程 花费 的 时 间 太 长 。 

在 这 些 情况 下 ， 用 户 可 以 在 ETL 处 理 期 间 生成 原始 数据 的 备份 ， 并 装载 到 HAWQ。ETL 
程序 提供 了 选择 在 本 地 还 是 HDFS 存储 备份 文件 的 灵活 性 。 

4. 备份 方法 对 比 

K 11-1 汇总 了 上 面 讨论 的 4 种 备份 方法 的 区 别 。 


表 11-1 备份 方法 比较 
























备份 文件 存储 位 置 本 地 文件 系统 本 地 文件 系统 本 地 文件 系统 HDFS 

备份 文件 格式 Text, CSV Text, CSV, | Text, Tar, HEM | 依赖 原始 数据 的 格式 
自 定义 格式 “| 格式 

压缩 只 支持 自 定义 格式 | 可 选 

可 伸缩 性 一 好 

性 能 — 快 (只 复制 文件 ) 














5. 估计 空间 需求 
备份 数据 库 前 , 需要 确认 有 足够 的 空间 存储 备份 文件 。 下 面 说 明 如 何 获 取 数 据 库 大 小 和 估 
算 备 份 文件 所 需 空间 。 
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(1) 从 hawq toolkit 查询 需要 备份 的 数据 库 大 小 

hawq toolkit 是 HAWQ 的 一 个 管理 模式 ， 使 用 与 下 面 类 似 的 命令 在 模式 查找 路 径 中 增加 
hawq toolkit 模式 : 

dbl=# set role 'gpadmin'; 

SET 

db1=# set search path to public, hawq toolkit; 

SET 

db1=# 

该 模式 中 包含 若干 可 以 使 用 SQL 命令 访问 的 视图 ， 这 些 视图 提供 了 系统 目录 表 、 日 志文 
件 、 操 作 环境 ， 以 及 系统 状态 的 相关 信息 hawq toolkit 可 被 所 有 数据 库 用 户 访问 ， 
hawq log command timings 、 hawq log master concise 、 hawq_size_of_table_and_indexes_ 
licensing. hawq size of table uncompressed 视图 的 查询 需要 超级 用 户 权限 。 下 面 语句 查询 数 
据 库 大 小 。 

gpadmin=# select sodddatsize from hawq toolkit.hawq size of database where 
sodddatname-'db1'; 


sodddatsize 


16063436 
(1 row) 


输出 结果 以 字 节 为 单位 ， 如 果 数 据 库 中 的 表 是 压缩 的 ， 此 查询 显示 压缩 后 的 数据 库 大 小 。 
(2) 估算 备份 文件 总 大 小 


@ 如果 数据 库 表 和 备份 文件 都 是 压缩 的 ， 可 以 使 用 sodddatsize 作为 估算 值 。 

€ ”如 果 数 据 库 表 是 压缩 的 ， 备 份 文件 是 非 压缩 的 ， 需 要 用 sodddatsize RUA., BR 
管 压 缩 率 依赖 于 压缩 算法 ， 但 通常 可 以 使 用 经 验 值 如 三 倍 进行 估算 。 

@ ”如 果 备 份 文件 是 压缩 的 ， 数 据 库 表 是 非 压 缩 的 ， 需 要 用 sodddatsize 除 以 压缩 率 。 

(3) 得 出 空间 需求 


€ 如果 使 用 PXF 与 HDFS， 所 需 空间 为 : 备份 文件 大 小 * 复制 因子 。 
© ”如 果 使 用 gpfdist, 每 个 gpfdist 实例 的 所 需 空间 为 : 备份 文件 大 小 / gpfdist 实例 个 数 ， 
这 是 因为 表 数 据 将 最 终 分 布 到 所 有 gpfdist 实例 。 


11.1.2 备份 与 恢复 示例 


1. gpfdist 示例 

为 使 用 gpfdist， 在 要 还 原 备份 文件 的 主机 上 启动 gpfdist 服务 器 程序 ， 可 以 在 同一 个 主机 
或 不 同 主机 上 启动 多 个 gpfdist 实例 。 每 个 gpfdist 实例 需要 指定 一 个 对 应 目录 ，gpfdist 从 该 目 
录 向 可 读 外 部 表 提 供 文件 , 或 者 创建 可 写 外 部 表 的 输出 文件 。 例如 ， 如 果 用 户 有 一 台 两 块 磁盘 
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的 专门 用 于 备份 的 机 器 ， 则 可 以 启动 两 个 gpfdist 实例 ， 每 个 实例 使 用 一 块 磁盘 ， 如 图 11-1 Br 
示 。 


NT. 


bp. 





图 11-1 专用 备份 主机 上 的 gpfdist 实例 


也 可 以 在 每 个 Segment 主机 上 运行 gpfdist 实例 ， 如 图 11-2 所 示 。 备 份 期 间 ， 表 数据 将 最 
终 分 布 于 所 有 CREATE EXTERNAL TABLE 定义 的 LOCATION 子 句 中 指定 的 gpfdist 实例 上 。 





图 11-2 & Segment 主机 上 运行 gpfdist 实例 


(1) 使 用 gpfdist 备份 
使 用 gpfdist 备份 mytest 数据 库 : 


ED 创建 备份 位 置 并 启动 gpfdist 实例 , 在 hdp4 上 启动 一 个 gpfdist 实例 ,端口 号 为 8081, 
外 部 数据 目录 是 /home/gpadmin/mytest_20170223。 
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gpfdist -d /home/gpadmin/mytest 20170223 -p 8081 & 

# 如 果 碰 到 “cannot open shared object file: No such file or directory” 类 似 的 错 
误 ， 需 要 先 安装 相应 的 依赖 包 ， 如 : 

gpfdist: error while loading shared libraries: libapr-1.so.0: cannot open shared 
object file: No such file or directory 

yum install apr 

gpfdist: error while loading shared libraries: libyaml-0.so.2: cannot open 
shared object file: No such file or directory 

yum install libyaml 


CX302 保存 mytest 数据 库 的 schema, Æ HAWQ Master 节点 所 在 主机 ， 使 用 pg_dump 应 用 
程序 ， 将 mytest 数据 库 的 schema 保存 到 文件 mytest.schema。 将 schema 文件 复制 到 
备份 目录 ， 用 于 以 后 还 原 数 据 库 schema。 


pg_dump --schema-only -f mytest.schema mytest 
scp mytest.schema hdp4:/home/gpadmin/mytest_20170223 


Eo 为 数据 库 中 的 每 个 表 创建 一 个 可 写 外 部 表 。 在 LOCATION 子 句 中 指定 gpfdist 实例 。 
本 例 使 用 CSV 文本 格式 ， 但 也 可 以 选择 其 他 固定 分 隔 符 的 文本 格式 。 
psql mytest 
mytest=# create writable external table wext base table (like base table) 
mytest=# location('gpfdist://hdp4:8081/base table.csv') format 'csv'; 
mytest=# create writable external table wext t (like t) 
mytest=# location('gpfdist://hdp4:8081/t.csv') format 'csv'; 


CXX04 向 外 部 表 秀 载 数据 。 所 有 外 部 表 的 数据 插入 在 一 个 事务 中 进行 。 


mytest=# begin; 

mytest=# insert into wext base table select * from base table; 
mytest=# insert into wext t select * from t; 

mytest=# commit; 


人 5 (可 选 ) 停止 gpfdist 服务 ,为 其 他 进程 释放 端口 。 下 面 的 命令 查找 gpfdist 进程 号 并 


ps -efww|grep gpfdist|grep -v grep|cut -c 9-15|xargs kill -9 
(2) 从 gpfdist 备份 还 原 
€D) 如果 gpfdist 没 运行 则 启动 gpfdist 实例 , 下 面 的 命令 在 hdp4 上 启动 一 个 gpfdist 实例 
gpfdist -d /home/gpadmin/mytest 20170223 -p 8081 & 
€D 创建 一 个 新 的 数据 库 mytest2， 并 将 mytest 的 schema 还 原 到 新 库 中 。 


[gpadmin@hdp3 ~]$ createdb mytest2 
[gpadmin@hdp3 ~]$ scp hdp4:/home/gpadmin/mytest 20170223/mytest.schema . 
[gpadmin@hdp3 ~]$ psql -f mytest.schema -d mytest2 
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GD 为 每 个 表 创 建 可 读 外 部 表 。 
[gpadmin@hdp3 ~]$ psql mytest2 
mytest2=# create external table rext base table (like base table) 
location('gpfdist://hdp4:8081/base table.csv') format 'csv'; 
mytest2=# create external table rext_t (like t) 
location ('gpfdist://hdp4:8081/t.csv') format 'csv'; 
这 里 的 location 子 句 与 前 面 备份 时 创建 的 可 写 外 部 表 相 同 。 
Ei 从 外 部 表 导 回 数据 。 


mytest2=# insert into base table select * from rext base table; 


mytest2=# insert into t select * from rext t; 
EIo 装载 数据 后 运行 ANALYZE 命令 生成 表 的 统计 信息 。 


mytest2=# analyze base table; 
mytest2=# analyze t; 


2. PXF 示例 
(1) 使 用 PXF 备份 
使 用 PXF 备份 mytest 数据 库 : 
oO) 在 HDFS 上 建立 一 个 用 作 备份 的 文件 夹 。 


root@hdp3 ~]# su - hdfs 
hdfs@hdp3 ~]$ hdfs dfs -mkdir -p /backup/mytest-2017-02-23 
[hdfs@hdp3 ~]$ hdfs dfs -chown -R gpadmin:gpadmin /backup 


使 用 pg dump 导出 数据 库 schema， 并 将 schema 文件 存储 到 备份 文件 夹 中 。 


gpadmin@hdp3 ~]$ pg_dump --schema-only -f mytest.schema mytest 
gpadmin@hdp3 ~]$ hdfs dfs -copyFromLocal mytest.schema 
/backup/mytest-2017-02-23 


ED 为 数据 库 中 每 个 表 创建 一 个 可 写 外 部 表 。 


gpadmin@hdp3 ~]$ psql mytest 
mytest=# create writable external table wext_base_table (like base_table) 
mytest=# 
location ('pxf://hdp1:51200/backup/mytest-2017-02-23/base_table?Profile=HdfsTex 
tSimple&COMPRESSION CODEC-org.apache.hadoop.io.compress.SnappyCodec') 
mytest=# format 'text'; 





mytest=# create writable external table wext t (like t) 

mytest=# 
location ('pxf://hdp1:51200/backup/mytest-2017-02-23/t?Profile=HdfsTextSimple&c 
OMPRESSION CODEC-org.apache.hadoop.io.compress.SnappyCodec') 
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mytest=# format 'text'; 


这 里 ,所 有 base table 表 的 备份 文件 存储 在 /backup/mytest-2017-02-23/base_table 文件 夹 中 ， 
所 有 t 表 的 备份 文件 存储 在 /backup/mytest-2017-02-23/t 文件 夹 中 。 外 部 数据 文件 使 用 snappy 
压缩 保存 到 磁盘 。 


Eo 向 外 部 表 导 出 数据 。 


mytest=# begin; 
mytest=# insert into wext base table select * from base table; 
mytest=# insert into wext t select * from t; 


mytest=# commit; 
外 部 表 使 用 snappy 压缩 时 可 能 遇 到 如 下 错误 : 


mytest=# insert into wext t select * from t; 

ERROR: remote component error (500) from '172.16.1.125:51200': type 
Exception report message native snappy 

library not available: this version of libhadoop was built without snappy support. 
description The server 

encountered an internal error that prevented it from fulfilling this request. 
exception 

java.lang.RuntimeException: native snappy library not available: this version 
of libhadoop was built without 

snappy support. (libchurl.c:897) (seg0 hdp4:40000 pid=8565) 
(dispatcher.c:1801) 


使 用 下 面 的 方法 解决 此 问题 (参考 https://issues.apache.org/jira/browse/HAWQ-951) : 


* 创建 目录 和 软 连接 

mkdir -p /usr/lib/hadoop/lib && cd /usr/lib/hadoop/lib && ln -s 
/usr/hdp/current/hadoop-client/lib/native native 

# WI pxf-public-classpath 属性 

登录 ambari, 7£ Services -> PXF -> Configs -> Advanced pxf-public-classpath 中 
添加 一 行 : /usr/hdp/current/hadoop-client/lib/snappy*.jar 


€XX305 (可 选 ) 改变 备份 文件 夹 的 HDFS 复制 因子 。 默 认 HDFS 每 个 数据 块 复制 三 份 以 提 
供 可 靠 性 。 根据 需要 ， 可 以 为 备份 文件 降低 这 个 数 ， 以 下 命令 将 复制 因子 设置 为 2: 


su - pxf 
-bash-4.1$ hdfs dfs -setrep 2 /backup/mytest-2017-02-23 


该 命令 只 改变 已 经 存在 文件 的 备份 因子 ， 新 文件 仍然 使 用 默认 备份 因子 值 。 
(2) 从 PXF 备份 还 原 
ED 创建 一 个 新 的 数据 库 并 还 原 schema, 


[gpadmin@hdp3 ~]$ createdb mytest3 
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[gpadmin@hdp3 ~]$ hdfs dfs -copyToLocal 
/backup/mytest-2017-02-23/mytest.schema . 
[gpadmin@hdp3 ~]$ psql -f mytest.schema -d mytest3 


ED 为 每 个 需要 还 原 的 表 创建 一 个 可 读 外 部 表 。 


[gpadmin@hdp3 ~]$ psql mytest3 

mytest3=# create external table rext base table (like base table) 

mytest3-4 
location('pxf://hdp1:51200/backup/mytest-2017-02-23/base table?Profile-HdfsTex 
tSimple') 

mytest3=# format 'text'; 


mytest3=# create external table rext t (like t) 
mytest3=# 
location ('pxf://hdp1:51200/backup/mytest-2017-02-23/t?Profile=HdfsTextSimple') 
mytest3=# format 'text'; 
除了 不 需要 指定 COMPRESSION CODEC. LOCATION 子 句 与 前 面 创建 可 写 外 部 表 的 相 
Flo PXF 会 自动 检测 压缩 算法 。 


EI 从 外 部 表 导 入 数据 。 


mytest3=# insert into base table select * from rext base table; 
mytest3=# insert into t select * from rext t; 


CX 导入 数据 后 运行 ANALYZE。 


mytest3=# analyze base_table; 
mytest3=# analyze t; 


11.2 高 可 用 性 


11.2.1 HAWQ 高 可 用 简介 


HAWQ 作为 一 个 传统 数据 仓库 在 Hadoop 上 的 替代 品 ， 其 高 可 用 性 至 关 重要 。 通 常 需要 
考虑 并 实施 硬件 容错 、HAWQ HA、HDFS HA 等 多 种 措施 以 保持 系统 高 可 用 。 另 外 实时 监控 
和 定期 维护 ， 也 是 保证 集群 所 有 组 件 健康 的 必 不 可 少 的 工作 。 总 的 来 说 ，HAWQ 容错 高 可 用 
的 实现 方式 包括 : 


e RRR 
€ Master 镜像 
e RE 


247 


1. 硬件 级 别 的 元 余 ( RAID 和 JBOD ) 

硬件 组 件 的 正常 磨损 或 意外 情况 最 终 会 导致 损坏 , 因此 有 必要 提供 备用 的 元 余 硬 件 , 当 一 
个 组 件 发 生 损 坏 时 ， 不 中 断 服务 。 某 些 情况 下 ， 宛 余 的 成 本 高 于 用 户 所 能 容忍 的 服务 中 断 。 此 
时 ， 目 标 是 保证 所 有 服务 能 够 在 一 个 预期 的 时 间 范 围 内 被 还 原 。 

虽然 Hadoop 集群 本 身 是 硬件 容错 的 ， 但 HAWQ 有 其 特殊 性 。HAWQ Master 的 数据 存储 
在 主机 本 地 硬盘 上 ， 是 一 个 单 点 。 作 为 最 佳 实践 ，HAWQ 建议 在 部 署 时 ，Master 节点 应 该 使 
用 RAID， 而 Segment 节点 应 该 使 用 JBOD。 这 些 硬件 级 别 的 系统 为 单一 磁盘 损坏 提供 高 性 能 
元 余 ， 而 不 必 进 入 到 数据 库 级 别 的 容错 。RAID A JBOD 在 磁盘 级 别提 供 了 低层 次 的 元 余 。 


2. Master 镜像 


高 可 用 集群 中 的 Master 节点 有 一 主 一 从 两 个 。 和 Master 节点 与 Segment 节点 分 开 部 署 类 
似 ，Master 的 主 和 从 也 应 该 部 署 到 不 同 的 主机 ， 以 容忍 单一 主机 失效 。 客 户 端 连接 到 主 Master 
节点 并 且 查询 只 能 在 主 Master 节点 上 执行 。 从 Master 节点 保持 与 主 Master 节点 的 实时 同步 ， 
这 是 通过 将 预 写 日 志 从 主 复制 到 从 实现 的 。 

3. 双 集 群 

可 以 通过 部 署 两 套 HAWQ 集群 存储 相同 的 数据 ， 从 而 增加 另 一 级 别 的 元 余 。 有 两 个 主要 
方法 用 于 保持 双 集 群 的 数据 同步 ， 分 别 是 双 ETL 和 备份 /还 原 。 

XX ETL 提供 一 个 与 主 集群 数据 完全 相同 的 备用 集群 。ETL (抽取 、 装 换 与 装载 ) 指 的 是 

-个 数据 清洗 、 转 换 、 验 证 和 装载 进 数据 仓库 的 过 程 。 通 过 双 ETL， 将 此 过 程 并 行 执 行 两 次 ， 

每 次 在 一 个 集群 中 执行 。 应 该 在 两 个 集群 上 都 进行 验证 ， 以 确保 双 ETL 执行 成 功 。 这 种 做 法 
是 最 彻底 的 宛 余 ， 需 要 部 署 两 套 HAWQ 集群 与 ETL 程序。 该 方 法 带 来 的 一 个 附加 好 处 是 应 用 
利用 双 集 群 ， 能 够 同时 在 两 个 集群 上 查询 数据 ， 将 查询 吞吐 量 增 加 一 倍 。 

用 备份 /还 原 方法 维护 一 个 双 集 群 ， 需 要 创建 一 个 主 集群 的 备份 ， 并 在 备用 集群 上 还 原 。 
这 种 方法 与 双 ETL 策略 相 比 ， 备 用 节点 数据 同步 的 时 间 要 长 得 多 ， 但 优点 是 只 需要 开发 更 少 
的 应 用 逻辑 。 如 果 数 据 修 改 和 ETL 执行 的 频率 是 每 天 或 更 低 的 频率 ， 同 时 备份 /还 原 时 间 又 在 
可 接受 的 范围 内 ， 那 么 用 备份 生成 数据 是 比较 理想 的 方式 。 备 份 /还 原 方法 不 适用 于 要 求 数据 
实时 同步 的 情况 。 








11.2.2 Master 节点 镜像 


在 HAWQ 中 配置 一 主 一 从 两 个 Master 节 点 ,客户 端 连接 主 Master 节 点 ,并 只 能 在 主 Master 
节点 上 执行 查询 。 从 Master 是 一 个 纯粹 的 容错 节点 ， 只 作为 主 Master 出 现 问题 时 的 备用 。 如 
果 主 Master 节点 不 可 用 ， 从 Master 节点 作为 热 备 。 可 以 在 主 Master 节点 联机 时 ， 从 它 创建 一 
个 从 Master 节点 。 当 主 Master 节点 持续 为 用 户 提供 服务 时 ，HAWQ 可 以 生成 主 Master 节点 
实例 的 事务 快照 。 除 了 生成 事务 快照 并 部 署 到 从 Master 节点 外 ，HAWQ 还 记录 主 Master 节点 
的 变化 。HAWQ 在 从 Master 节点 部 署 了 快照 后 ， 会 应 用 更 新 以 将 从 Master 节点 与 主 Master 
节点 数据 同步 。 
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EM Master 节点 初始 同步 后 ，HAWQ 分 别 在 主 、 从 节点 上 启动 WAL Send 和 WAL Redo 
服务 器 进程 ， 保 持 主 从 实时 同步 。 它 们 是 基于 预 写 日 志 CWrite-Ahead Logging, WAL) 的 复 
制 进程 。WAL Redo 是 一 个 从 Master 节点 进程 ，WAL Send 是 主 Master 节点 进程 。 这 两 个 进 
程 使 用 基于 WAL 的 流 复制 保持 主 从 同步 。 因 为 Master 节点 不 保存 用 户 数 据 ， 只 有 系统 目录 
REEM Master 节点 间 被 同步 。 当 这 些 系统 表 被 更 新 时 (如 DDL 所 引起 ) ， 改 变 自动 复制 到 
从 Master 节点 保持 它 与 当前 的 主 Master 节点 数据 一 致 。 

HAWQ 中 的 Master 节点 镜像 架构 如 图 11-3 所 示 。 


primary master host standby master host 


synchronization 








图 11-3 HAWQ 主 从 Master 架构 

如 果 主 Master 节点 失效 ， 复 制 进程 停止 。 此 时 管理 员 需 要 使 用 命令 行 工具 或 者 Ambari， 
手工 执行 Master 切换 ， 指 示 从 Master 节点 成 为 新 的 主 Master。 在 激活 从 Master 节点 后 ， 复 制 
的 日 志 重 构 主 Master 节点 在 最 后 成 功 提交 事务 时 的 状态 。 从 Master 节点 初始 化 后 ， 被 激活 的 
从 Master 作为 HAWQ 的 主 节点 ， 在 指定 端口 接收 连接 请 求 。 

可 以 为 主 、 从 配置 同一 个 虚 IP 地 址 ， 这 样 在 主 从 切换 时 ， 客 户 端 程序 就 不 需要 连接 到 两 
个 不 同 的 网 络 地 址 。 如 果 主 机 失效 ， 虚 IP 可 以 自动 交换 到 实际 活动 的 主 节点 。 虚 卫 可 能 需要 
额外 的 软件 支持 ， 如 Keepalived 等 。 下 面 演示 如 何 配置 从 Master 及 其 失败 切换 过 程 。 

1. 配置 从 Master 

hdp2 为 现 有 的 Master 节点 ， 下 面 过 程 将 hdp3 配置 为 hdp2 的 从 Master 节点 。 

(1) 前 提 配 置 

确保 hdp3 上 已 经 安装 了 HAWQ 并 进行 了 以 下 配置 : 

@ 创建 了 gpadmin 系统 用 户 。 
已 安装 了 HAWQ 二 进 制 包 。 
已 设置 了 HAWQ 相关 的 环境 变量 。 
已 配置 主 、 从 Master 的 SSH 免 密码 登录 。 
已 创建 了 Master 数据 目录 。 


(2) 初始 化 从 Master 节点 
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登录 hdp3， 清 空 Master 数据 目录 。 
[rootehdp3 ~]# rm -rf /data/hawq/master/* 
登录 hdp2， 初 始 化 从 Master 节点 


[gpadmin@hdp2 ~]$ . /usr/local/hawq/greenplum path.sh 
[gpadmin@hdp2 ~]$ hawq init standby -s hdp3 


(3) 检查 HAWQ 集群 状态 
€ 在 hdp2 上 执行 hawq state 命 令 检 查 HAWQ 集群 的 状态 , 主 Master 状态 应 该 是 Active， 
从 Master 状态 是 Passive。 


[gpadmin@hdp2 ~]$ hawq state 


--HAWQ instance status summary 


-- Master instance = Active 

-- Master standby = hdp3 

-- Standby master state = Standby host passive 
-- Total segment instance count from config file - 4 


-- Total segments count from catalog =4 
-- Total segment valid (at master) =4 
-- Total segment failures (at master) =0 
-- Total number of postmaster.pid files missing = 0 
-- Total number of postmaster.pid files found =4 


€ #74 gp segment configuration 表 验 证 Segment 已 经 注册 到 主 Master 节点 ， 查 询 结果 
如 下 ， 可 以 看 到 hdp2 5 hdp3 的 角色 分 别 是 tm 和 "s. 


[gpadmin@hdp2 ~]$ psql -c 'SELECT * FROM gp segment configuration;" 


registration order | role | status | port | hostname | address | description 
-------------------- 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 
=L Is lu | 5432 | hdp3 15172:716:1-1262 
0 |m lu | 5432 | hdp2 | hdp2 | 
al Ip lu | 40000 | localhost | 127.0.0.1 | 
2 Ip lu | 40000 | hdp4 | 172.16.1.127 | 
3 Ip lu | 40000 | hdp3 [| -172:16.1.126 | 
4 Ip lu | 40000 | hdpl | 172.16.1.124 | 
(6 rows) 


€ #7 gp master mirroring 系 统 视图 检查 主 节点 镜像 的 状态 .该 视图 提供 了 关于 HAWQ 
Master 节点 的 WAL Send 进程 的 使 用 信息 。 查 询 结 果 如 下 ， 可 以 看 到 主 、 从 Master 
数据 已 经 同步 。 
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[gpadmin@hdp2 ~]$ psql -c 'SELECT * FROM gp master mirroring;" 


summary state | detail state | log time | error message 
--------------- 4--------------4------------------------4--------------- 
Synchronized | [1 2017=02=28 01 :16:59+08 

(1 row) 


2. 手工 执行 失败 切换 
当主 Master 不 可 用 时 ， 需 要 手工 执行 切换 ， 将 从 Master 激活 为 主 Master。 


(1) 保证 系统 中 已 经 配置 从 Master 节点 主机 。 
(2) 激活 从 Master 节点 。 登 录 到 HAWQ 从 Master 节点 并 激活 它 ， 之 后 从 Master 成 为 
HAWQ 的 主 Master。 
[gpadmin@hdp3 ~]$ hawq activate standby 
3. 配置 一 个 新 的 从 Master 节点 ( 可 选 但 推荐 ) 


手工 切换 Master 后 ， 最 好 配置 一 个 新 的 从 Master 节点 ， 继 续 保持 Master 的 高 可 用 性 ， 配 
置 过 程 参考 上 面 “ 配 置 从 Master” 的 内 容 。 

4. 重新 同步 主 、 从 节点 

如 果 主 、 从 之 间 的 日 志 同 步 进程 停止 或 者 落后 ， 从 Master 可 能 变 成 过 时 状态 。 这 种 情况 
下 查询 gp_master_mirroring 视图 ， 会 看 到 summary. state 字段 输出 中 显示 Not Synchronized. 
为 了 将 从 与 主 重新 进行 同步 , 在 主 Master 节点 上 执行 下 面 的 命令 。 该 命令 停止 并 重启 主 Master 
节点 ， 然 后 同步 从 Master 节点 。 


[gpadmin@hdp3 ~]$ hawq init standby -n 


11.2.3 HAWQ 文件 空间 与 HDFS 高 可 用 

如 果 在 初始 化 HAWQ 时 没有 启用 HDFS 的 高 可 用 性 ， 可 以 使 用 下 面 的 过 程 启用 它 。 

(1) 配置 HDFS 集群 高 可 用 性 。 

(2) 收集 目标 文件 空间 的 信息 。 

G) 停止 HAWQ 集群 ， 并 且 备 份 系统 目录 。 

(4) 使 用 命令 行 工具 迁移 文件 空间 。 

(5) 重新 配置 ${GPHOME}/etc/hdfs-client.xml 和 ${GPHOME}/etc/hawq-site.xml， 然 后 同 
步 更 新 所 有 HAWQ 节点 的 配置 文件 。 

(6) 启动 HAWQ 集群 ， 并 在 迁移 文件 空间 后 重新 同步 从 Master 节点 。 


1. 配置 HDFS 集群 高 可 用 性 


(1) HDFS HA 概述 
HDFS 中 的 NameNode 非常 重要 ， 其 中 保存 了 DataNode 上 数据 块 存储 位 置 的 相关 信息 。 
它 主要 维护 两 个 映射 ， 一 个 是 文件 到 块 的 对 应 关系 ， 一 个 是 块 到 节点 的 对 应 关系 。 如 果 
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HAWQ 数据 仓库 与 数 


NameNode 停止 工作 ， 就 无 法 知道 数据 所 在 的 位 置 ， 整 个 HDFS 将 陷入 瘫痪 ， 因 此 保证 
NameNode 的 高 可 用 性 非常 重要 。 

在 Hadoop 1 时 代 ， 只 有 一 个 NameNode。 如 果 该 NameNode 数据 丢失 或 者 不 能 工作 ， 那 
么 整个 集群 就 不 能 恢复 了 。 这 是 Hadoop 1 中 的 单 点 故障 问题 ， 也 是 Hadoop 1 不 可 靠 的 体现 。 
图 11-4 是 Hadoop 1 的 架构 图 。 


e» c 





11-4 Hadoopl 结构 

为 了 解决 Hadoop 1 中 的 单 点 问题 ，Hadoop 2 中 支持 两 个 NameNode， 每 一 个 都 有 相同 的 
职能 。 一 个 是 Active 状态 ， 一 个 是 Standby 状态 。 当 集群 运行 时 ， 只 有 Active NameNode 正常 
工作 ，Standby 状态 的 NameNode 处 于 待命 状态 ， 时 刻 同 步 Active NameNode 的 数据 。 一 旦 
Active NameNode 不 能 工作 ， 通 过 手工 或 者 自动 切换 ， 将 Standby NameNode 转变 为 Active 状 
态 ， 就 可 以 继续 工作 了 。 

Hadoop 2 中 ， 两 个 NameNode 的 数据 是 实时 共享 的 。HDFS 采用 了 一 种 共享 机 制 ， 通 过 
Quorum Journal Node (JournalNode) 集群 或 者 Network File System (NFS) 进行 共享 。NFS 是 
操作 系统 层面 的 , JournalNode 是 Hadoop 层面 的 〈 主 流 做 法 ) « FA 11-5 为 JournalNode 架构 图 。 


es namenode(standby) 同 步 JNS 数 据 


11-5 Hadoop2 JournalNode 架构 


JNS 同 步 namenode (active) 数据 
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两 个 NameNode 为 了 数据 同步 ， 会 通过 一 组 称 作 JournalNodes 的 独立 进程 进行 相互 通信 。 
当 Active NameNode 的 命名 空间 有 任何 修改 时 , 会 告知 JournalNodes 进程 。 Standby NameNode 
读 取 JNs 中 的 变更 信息 , 并 且 一 直 监 控 edit log 的 变化 , 把 变化 应 用 于 自己 的 命名 空间 。Standby 
可 以 确保 在 集群 出 错时 ， 命 名 空间 状态 已 经 完全 同步 。 

对 于 HA 集群 而 言 ， 确 保 同 一 时 刻 只 有 一 个 NameNode 处 于 Active 状态 非常 重要 。 和 否则 ， 
两 个 NameNode 的 数据 状态 就 可 能 产生 分 歧 ， 或 造成 数据 丢失 ， 或 产生 错误 的 结果 。 为 了 保 
证 这 点 ， 需 要 利用 ZooKeeper。 首 先 HDFS 集群 中 的 两 个 NameNode 都 在 ZooKeeper 中 注册 ， 
当 Active NameNode 出 故障 时 ，ZooKeeper 能 检测 到 这 种 情况 ， 然 后 它 就 会 自动 把 Standby 
NameNode 切换 为 Active 状态 。 


(2) 使 用 Ambari 启用 HDP 的 高 可 用 性 (参考 https://docs.hortonworks.com/ 
HDPDocuments/A mbari-2.4. 1.0/bk_ambari-user-guide/content/how_to_configure_namenode_high_ 
availability.html) 。 


€ 检查 Hadoop 集群 ， 确 保 集群 中 至 少 有 三 台 主机 ， 并 且 至 少 运行 三 个 ZooKeeper 服务 
器 。 

€ ”检查 Hadoop 集群 ,确保 HDFS 和 ZooKeeper 服务 不 是 在 维护 模式 中 ,启用 NameNode 
HA 时 , 这 些 服务 需要 重启 , 而 维护 模式 阻止 启动 和 停止 。 如 果 HDFS 或 者 ZooKeeper 
服务 处 于 维护 模式 ，NameNode HA 向 导 将 不 能 完全 成 功 。 

€ 在 Ambari Web 里， 选择 Services HDFS > Summary. 

€ Æ Service Actions 中 选择 Enable NameNode HA, wA 11-6 所 示 。 


Service Actions ~ 
b Sta 
E Stop 
| C Restart All 
© Restart DataNodes 
Q  f*Move NameNode 
$ Move SNameNode 
il © Run Service Check 
j 四 Tum On Maintenance Mode 
C Rebalance HDFS 
& Download Client Configs 
X Delete Service 


图 11-6 启用 NameNode HA 
€ EIL Enable HA 向 导 , 此 向 导 描述 了 配置 NameNode HA 必须 执行 的 自动 和 手工 步骤 。 
€ Get Started。 此 步骤 给 出 一 个 处 理 预览 ， 并 允许 用 户 选 择 一 个 Nameservice ID， 本 例 
的 Nameservice ID 为 mycluster. HA 一 旦 配置 好 ， 就 需要 使 用 Nameservice ID 代替 
NameNode FQDN。 单 击 Next 继续 处 理 ， 如 图 11-7 所 示 。 
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Enable NameNode HA Wizard 


ENABLE NAMENODE HA 


WIZARD Get Started 
THIS WEAIG wl Wak You through enabing NameNode HA cn your cluster. 


Once enabled, you will be running a Standby NameNode in addition to your Active NameNode. 
This allows for an Active-Standby NameNode configuration that automaticaly performs failover 


The process io enable HA involves a combination of automated steps (that will be nandled by the wizard) and 
manual steps (that you must perform in sequence as instructed by the wizard). 
‘onfigure Component 
You snould plan a cluster maintenance window anc prepare for cluster downtime when enabling 
Mialre JournalNodes Nanencde ha? 


tart components 


Intialize Metadata 


Nameservice ID 





图 11-7 开始 配置 NameNode HA 


€ Select Hosts: 为 Standby NameNode 和 JournalNodes 选择 主机 。 可 以 使 用 下 拉 列 表 调 
整 向 导 建议 的 选项 。 单 击 Next 继续 处 理 。 
€ Review: 确认 主机 的 选择 ， 并 单 击 Next, de 11-8 所 示 。 





Enable NameNode HA Wizard 


ENABLE NAMENODE ^ 
HA WIZARC Review 
Get Started 
Confirm your host selections. 
Select Hosts 


Pr = Current NameNode: — hdpi 
Secondary NameNode: hdp2 — TO BE DELETED 
Additional NameNode: hdp2 + TO BE INSTALLED 


JournalNode: hdp2 中 TO BE INSTALLED 
hdp4 中 TO BE INSTALLED 
hdp1 +TO BE INSTALLED 





Review Configuration Changes. 

The following lists the configuration changes that will be made by the Wizard to enable 
NameNode HA This information is for review only and is not editable except for the 
dfs journainode.edits.dir property 


HDFS 


» HBase 


Accumulo 


HAWQ 











图 11-8 确认 主机 


e ”创建 检查 点 : 此 步骤 中 提示 执行 两 条 命令 ， 第 一 条 命令 把 NameNode 置 于 安全 模式 ， 
第 二 条 命令 创建 一 个 检查 点 ， 如 图 11-9 所 示 。 需 要 登录 当前 的 NameNode 主机 终端 
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执行 这 两 条 命令 。 当 Ambari 检测 到 命令 执行 成 功 后 ， 窗 口 下 端的 提示 消息 将 改变 。 





单 击 Next。 
Enable NameNode HA Wizard 
are Manual Steps Required: Create Checkpoint on 


NameNode 


1 Login to the NameNode host hdpt 










at the NameNode is in Sate Mode and the Checkpoint 


Step 4: Create a Checkpoi 

















图 11-9 创建 检查 点 
按照 页 面 提示 ， 在 终端 控制 台 执 行 两 条 命令 : 


[root@hdp1 ~]# sudo su hdfs -1 -c 'hdfs dfsadmin -safemode enter' 


Safe mode is ON 
[root@hdp1 ~]# sudo su hdfs -1 -c 'hdfs dfsadmin -saveNamespace' 


Save namespace successful 
[root@hdpl ~]# 


© ”确认 组 件 。 向 导 开 始 配置 相关 组 件 ， 显 示 进 度 跟 踪 步 又。 配置 成 功 如 图 11-10 所 示 
单 击 Next 继续 。 


Enable NameNode HA Wizard 


ENABLE NAMENODE HA 


WizAR Configure Components 


Please proceed to tne next step. 


V Stop Ai Services 
M instat Additional 


Configure Components 
V^ Install JournalNodes 


Reconfigure HDFS 





tadal VW Start JournalNodes. 





Le i W Disable Secondary NameNode 








图 11-10 配置 组 件 
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€ 初始 化 JournalNodes。 此 步骤 中 提示 执行 一 条 指令 ， 如 图 11-11 所 示 。 需要 登录 到 当 
前 的 NameNode 主机 运行 命令 初始 化 JournalNodes. 24 Ambari 检测 成 功 ， 窗 口 下 端 
的 提示 消息 将 改变 。 单 击 Next。 


Enable NameNode HA Wizard 





NADLE NAMENODE HA 本 
WIZARE Manual Steps Required: Initialize JournalNodes 
1 Login to he NameNode host hap1 
3 You wil be able to proceed once Amari detects that the JoumaNNodes have been initialized successfuly 
ntt JouraNodes TaN Raa 








11-11 初始 化 JourmalNodes 


e AAA: 向 导 启 动 ZooKeeper 服务 器 和 NameNode， 显 示 进 度 跟踪 步骤 。 执 行 成 功 
后 如 图 11-12 所 示 。 单 击 Next 继续 。 


Enable NameNode HA Wizard 


ENABLE NAMENODE HA 





WIZARD Start Components 
Ge Please proceed to the next step. 








图 11-12 启动 组 件 
€ ”初始 化 元 数据 ,此 步骤 中 根据 提示 执行 命令 ,确保 登录 正确 的 主机 ( 主 、 从 NameNode ) 
执行 每 个 命令 。 当 完成 了 两 个 命令 ， 单 击 Next。 显 示 一 个 弹出 窗口 ， 提 醒 用 户 确认 
已 经 执行 了 两 个 命令 。 单 击 OK 确认 。 
@ 最终 设置 。 此 步骤 中 ,向 导 显 示 进 度 跟踪 步骤 。 单 击 Done 结束 向 导 。 在 Ambari Web 
GUI 重 载 后 ， 可 以 看 到 一 些 警告 提示 。 等 待 几 分 钟 直到 服务 恢复 。 如 果 需 要 ， 使 用 
Ambari Web 重启 相关 组 件 。 
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€ +H ZooKeeper 失败 切换 控制 器 的 重 试 次 数 设置 。 浏 览 Services? HDFS > Configs > 
Advanced core-site， 设 置 ha.failover-controller.active-standby-elector.zk.op.retries=120。 


至 此 已 经 配置 好 HDP HDFS 的 高 可 用 性 。 从 NameNode UI 可 以 看 到 ，hdpl 和 hdp2 分 别 
显示 为 active 和 standby。 如 图 11-13 和 图 11-14 所 示 。 








Hadoop Overview  Datanodes Datanode Volume Failures Snapshot Startup Progress Utilities 


Overview)’ 


Namespace: mycluster 














Namenode ID: mni 





Started: 
Version: 2325001245 Mb60e3995e5ad9543315cd404bde59 
Compiled: n (HEAD detached at cb6e514) 
Cluster 1D: azoton 

Block Poot 1D: 























Hadoop 


Startup Progress — Ullies 


Overview 








Namespace: mycluster 
Namenode 1D: m2 

Started: Mon Apr 24 09:26:33 CST 2017 

Version: 27,32500-1245, rcb5e514b14fb60e9995e5ad9543315cd404b4e59 
Compiled: 2016: 00:552 by jenkins from (HEAD detached at cb6e514) 






Cluster ID: CID-a66 3e-4039-8c54-4297cbdf9912 





Block Pool ID: BP-782825509-172.16.1 124-1486530062341 


图 11-14. Standby NameNode 


此 时 在 hdpl 上 执行 如 下 命令 关闭 hdpl 上 的 NameNode: 


[hdfsGhdpl ~]$ /usr/hdp/2.5.0.0-1245/hadoop/sbin/hadoop-daemon.sh stop 
namenode 

stopping namenode 

[hdfsGhdpl ~]$ 


再 次 查看 hdp2 上 的 NameNode， 发 现 已 自动 切换 为 Active， 如 图 11-15 所 示 。 


257 


Hadoop Overview Datanodes DatanodeVolumeFalures Snapshot Startup Progress Utilities 





Overview} hap 





Namespace: myciuster 
Nemenode ID: nz 

Started: 
Version: 


Compiled: 





Cluster ID: 


Block Pool ID: BP-782825509-172.16.1.124-148: 











11-15. Standby 切换 为 Active 
再 次 查看 hdpl 上 的 NameNode， 发 现 已 自动 切换 为 Standby， 如 图 11-16 所 示 。 















Datanode Volume Failures Snapshot Startup Progress Utilities 


Hadoop ^ Overvie 


Overview) ' 


Namespace: mycluster 
Namenode ID: mnt 

Started: Mon Apr 24 15:00:42 CST 2017 
Version: 514b14fb60e3995e5ad9543315cd404b4e59 
Compiled: 
Cluster ID: 


Block Poo! ID: 





11-16 Active 切换 为 Standby 


2. 收集 目标 文件 空间 信息 
默认 的 文件 空间 名 为 dfs_system， 存 在 于 pg filespace 目录 ， 其 参数 pg_filespace_entry 包 
含 每 个 文件 空间 的 细节 信息 。 为 了 将 文件 空间 位 置 迁移 到 HDFS HA 的 位 置 ， 必 须 将 数据 迁移 
到 集群 中 新 的 HDFS HA 路 径 。 使 用 下 面 的 SQL 查询 收集 关于 HDFS 上 的 文件 空间 位 置信 息 。 
select fsname, fsedbid, fselocation 
from pg filespace as sp, pg filespace entry as entry, pg filesystem as fs 


where sp.fsfsys - fs.oid and fs.fsysname - 'hdfs' and sp.oid - entry.fsefsoid 
order by entry.fsedbid; 


输出 信息 中 包含 HDFS 路 径 共享 相同 的 前 级 ， 以 及 当前 文件 空间 的 位 置 : 





fsname | fsedbid | fselocation 
Steet pi a ea a ae ee eS 
dfs_system | 0 | hdfs://hdp1:8020/hawq data 
(1 row) 


为 了 在 HAWQ 中 使 用 HDFS HA， 需 要 文件 空间 名 和 HDFS 路 径 的 通用 前 级 信息 。 文 件 
空间 位 置 的 格式 类 似 一 个 URL 。 如 果 无 HA 的 文件 空间 位 置 是 
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hdfs://test5:9000/hawq/hawq-1459499690, J} H. HDFS HA 的 通用 前 级 是 hdfs://hdfs-cluster， 那 
么 新 的 文件 空间 位 置 应 该 是 hdfs://hdfs-cluster/hawq/hawq-1459499690。 
3. 停止 HAWQ 集群 并 备份 系统 目录 
用 户 必须 手工 执行 这 个 步骤 。 在 HAWQ 中 启用 HDFS HA 时 会 修改 HAWQ 的 目录 和 永 
久 表 。 因 此 迁移 文件 空间 位 置 前 ， 先 要 备份 目录 ， 以 确保 不 会 因为 硬件 失效 或 在 一 个 操作 期 间 
(如 杀 掉 HAWQ 进程 ) 丢失 数据 。 
(1) 如 果 HAWQ 主 节 点 使 用 了 一 个 定制 端口 ， 输 出 PGPORT 环境 变量 。 例 如 : 


export PGPORT=8020 


(2) 保存 HAWQ Master 节点 目录 ， 在 hawg-site.xml 文件 中 找到 hawq_master_directory 
属性 ， 赋 给 一 个 环境 变量 。 


export MDATA_DIR=/data/hawq/master 
G) 断 掉 所 有 连接 。 使 用 以 下 查询 检查 活动 连接 : 

[gpadminehdp3 ~]$ psql -c "SELECT * FROM pg catalog.pg stat activity" 
(4) 执行 检查 点 。 

[gpadminehdp3 ~]$ psql -c "CHECKPOINT" 


(5) 停止 HAWQ 集群 。 





[gpadmin@hdp3 ~]$ hawq stop cluster -a -M fast 
(6) 复制 主 节点 数据 目录 到 备份 的 位 置 : 

$ cp -r ${MDATA DIR} /catalog/backup/location 
主 节点 数据 目录 包含 子 目 录 ， 一 定 要 备份 此 目录 。 
4. 迁移 文件 空间 位 置 


用 户 必须 手工 执行 这 个 步骤 。HAWQ 提供 了 命令 行 工具 hawg filespace， 迁 移 文件 空间 的 
位 置 。 


(1) WR HAWQ 主 节点 使 用 了 一 个 定制 端口 ， 输 出 PGPORT 环境 变量 。 例 如 : 
export PGPORT=9000 
(2) 运行 下 面 的 命令 迁移 文件 空间 的 位 置 : 


[gpadmin@hdp3 master]$ hawq filespace --movefilespace default 
--location=hdfs://mycluster/hawq_data 


迁移 文件 空间 时 可 能 出 现 的 以 下 潜在 错误 : 
@ ”如 果 提 供 了 无 效 的 输入 ， 或 者 在 修改 文件 空间 位 置 时 没有 停止 HAWQ， 可 能 发 生 非 
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谣 溃 错误 。 检 查 是 否 已 经 从 头 正确 执行 了 所 有 步骤 ， 或 者 在 再 次 执行 hawq filespace 
前 修正 输入 错误 。 

o 崩 演 错误 可 能 发 生 在 硬件 失效 或 者 修改 文件 空间 位 置 时 杀 死 HAWQ 进程 失败 的 情况 
下 。 当 发 生 崩 溃 错 误 时 ， 在 输出 中 可 以 看 到 “PLEASE RESTORE MASTER DATA 
DIRECTORY” 消 息 。 此 时 应 该 停止 数据 库 ， 并 且 还 原 在 “停止 HAWQ 集群 并 备份 
系统 目录 ”步骤 中 备份 的 S{MDATA_DIR} 目 录 。 

5. 重新 配置 hdfs-client.xml 和 hawq-site.xml , 更 新 HAWQ 使 用 NameNode HA 


如 果 使 用 Ambari 管理 HDFS 和 HAWQ， 不 需要 执行 此 步骤 ， 因 为 Ambari 在 启用 了 
NameNode HA 后 会 自动 执行 这 些 修 改 。 

如 果 使 用 命令 行 安装 和 管理 HAWQ 集群 ， 参 考 http/hawq.incubator.apache.org/docs/userguide/ 
2.1.0.0-incubating/adminVHAWQFilespacesandHighAvailabilityEnabledHDFS.html#configuregpho 
meetchdfsclientxml， 修 改 HAWQ 配置 以 使 用 NameNode HA 服务 。 


6. 重启 HAWQ 集群 并 重新 同步 主 从 Master 节点 


(1) 重启 HAWQ 集群 : 





[gpadmin@hdp3 master]$ hawq start cluster -a 


(2) 迁移 文件 空间 到 新 位 置 会 使 从 Master 节点 无 效 ， 因 此 需要 重新 同步 从 Master 节点 。 
在 主 Master 节点 上 ， 运 行 下 面 的 命令 保证 从 Master 的 目录 与 主 Master 重新 同步 。 


[gpadmin@hdp3 master]$ hawq init standby -n -M fast 
至 此 已 经 在 HAWQ 的 文件 空间 中 使 用 了 HDFS HA， 再 次 查询 文件 空间 信息 ， 结 果 如 下 : 


gpadmin=# select fsname, fsedbid, fselocation 

gpadmin-# from pg filespace as sp, 

gpadmin-# pg_filespace entry as entry, 

gpadmin-# pg_filesystem as fs 

gpadmin-# where sp.fsfsys = fs.oid and fs.fsysname = 'hdfs' 
gpadmin-# and sp.oid = entry.fsefsoid 

gpadmin-# order by entry.fsedbid; 


fsname | fsedbid | fselocation 
—— m————————————————————— 
dfs system | 0 | hdfs://mycluster/hawq data 
(1 row) 


11.24 HAWQ 容错 服务 


HAWQ 的 容错 服务 (fault tolerance service, FTS) 使 得 HAWQ 可 以 在 Segment 节点 失效 
时 持续 操作 。 容 错 服务 自动 运行 ， 并 且 不 需要 额外 的 配置 。 
每 个 Segment 运行 一 个 资源 管理 进程 ， 定 期 (默认 每 30 秒 ) 向 Master 节点 的 资源 管理 进 
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FE RIE Segment 状态 。 这 个 时 间 间 隔 由 hawq_rm_segment_heartbeat_interval 服务 器 配置 参数 所 
控制 。 当 一 个 Segment 碰 到 严重 错误 , 例如， 由 于 硬件 问题 , Segment 上 的 一 个 临时 目录 损坏 ， 
Segment 通过 心跳 报告 向 Master 节点 报告 有 一 个 临时 目录 损坏 。Master 节点 接收 到 报告 后 ， 
在 gp segment configuration 表 中 将 该 Segment 标记 为 DOWN。 所 有 Segment 状态 的 变化 都 被 
记录 到 gp_configuration_history 目录 表 , 包括 Segment 被 标记 为 DOWN 的 原因 。 当 这 个 Segment 
被 置 为 DOWN，Master 节点 不 会 在 该 Segment 上 运行 查询 执行 器 。 失 效 的 Segment 与 集群 剩 
下 的 节点 相隔 离 。 

包括 磁盘 故障 的 其 他 原因 也 会 导致 一 个 Segment 被 标记 为 DOWN. 例如 ，HAWQ 运行 在 
YARN 模式 中 ， 每 个 Segment 应 该 有 一 个 运行 的 NodeManager (Hadoop 的 YARN 服务 ) ， 因 
JE Segment 可 以 被 看 作 HAWQ 的 一 个 资源 。 但 如 果 Segment 上 的 NodeManager 不 能 正常 操作 ， 
那么 该 Segment 会 在 gp_segment_configuration 表 中 被 标记 为 DOWN。 失 效 对 应 的 原因 被 记录 
进 gp. configuration history. 

为 查看 当前 Segment 的 状态 ， 查 询 gp segment configuration 表 。 如 果 Segment 的 状态 是 
DOWN，“description” 列 显示 原因 。 下 面 列 出 了 几 个 常见 的 Segment 宕 机 原因 。 








1. heartbeat timeout 

主 节 点 没有 接收 到 来 自 Segment 的 心跳 .如 果 看 到 这 个 原因 , 确认 该 Segment 上 的 HAWQ 
实例 是 否 运行 。 如 果 Segment 在 以 后 的 时 间 报 告 心跳 ，Segment 被 自动 标记 为 UP。 

2.failed probing segment 

Master 节点 探测 Segment 以 验证 它 是 否 能 被 正常 操作 ， 段 的 响应 为 NO。 在 一 个 HAWQ 
实例 运行 时 ， 查 询 分 发 器 发 现 某 些 Segment 上 的 查询 执行 器 不 能 正常 工作 。Master 节点 上 的 
资源 管理 器 进程 向 这 个 Segment 发 送 一 个 消息 。 当 Segment 的 资源 管理 器 接收 到 来 自 Master 
节点 的 消息 ， 它 检查 其 postmaster 进程 是 否 工 作 正常 ， 并 且 向 Master 节点 发 送 一 个 响应 消息 。 
如 果 Master 节点 收 到 的 响应 消息 表示 该 Segment 的 postmaster 进程 没有 正常 工作 ,那么 Master 
节点 标记 Segment 为 DOWN， 原 因 记 为 “failed probing segment.”。 检查 失败 Segment 的 日 志 
并 且 尝 试 重启 HAWQ 实例 。 





3. communication error 

Master 节点 不 能 连接 到 Segment。 检 查 Master 节点 和 Segment 之 间 的 网 络 连接 。 

4. resource manager process was reset 

如 果 Segment 资源 管理 器 进程 的 时 间 戳 与 先前 的 时 间 戳 不 匹配 ,意味 着 Segment 上 的 资源 
管理 器 进程 被 重启 过 。 在 这 种 情况 下 ，HAWQ Master 节点 需要 回收 该 Segment 上 的 资源 并 将 
其 标记 为 DOWN。 如 果 Master 节点 从 该 Segment 接收 到 一 个 新 的 心跳 ， 它 会 自动 标记 为 UP。 





5. no global node report 
HAWQ 使 用 YARN 管理 资源 ,但 没有 为 该 Segment 接收 到 集群 报告 。 检 查 该 Segment 上 
的 NodeManager 是 否 可 以 正常 操作 。 如 果 不 能 ， 尝 试 启动 该 Segment 上 的 NodeManager。 在 
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NodeManager 启动 后 ， 运 行 yarn node --list 查看 该 节点 是 否 在 列表 中 。 如 果 存 在 ， 该 Segment 
PABA UP. 





小 结 


HAWQ 可 以 通过 gpfdist. PXF. pg dump. pg restore 等 工具 备份 /还 原 数 据 库 。 这 些 备份 
方法 方便 表 的 迁移 和 恢复 人 为 误 操 作 ， 是 对 HDFS 副本 集 功能 的 有 效 补充 。HAWQ 高 可 用 的 
实现 方式 包括 硬件 元 余 、 Master 镜像 、 利 用 HDFS HA 几 个 层面 。HAWQ 建议 在 部 署 时 , Master 
节点 应 该 使 用 RAID, 而 Segment 节点 应 该 使 用 JBOD。 EM Master 能 防止 Master 节点 的 单 点 
故障 。 当 主 Master 出 现 问 题 ， 需 要 手工 将 切换 主 从 Master。HAWQ 文件 空间 支持 HDFS HA。 
容错 服务 (fault tolerance service, FTS) 使 得 HAWQ 可 以 在 Segment 节点 失效 时 持续 操作 ， 
该 服务 自动 运行 ， 不 需要 额外 配置 。 
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第 二 部 分 





HAWQ 实战 演练 


12 
< 建立 数据 仓库 示例 模型 > 


在 本 书 第 二 部 分 ， 我 们 将 利用 第 一 部 分 讲解 的 HAWQ 技术 特性 ， 使 用 一 个 完整 的 示例 ， 
展示 如 何在 HAWQ 上 一 步 步 构建 自己 的 数据 仓库 ， 目 的 在 于 演示 以 HAW 代 蔡 传统 数据 仓 
库 的 具体 实现 全 过 程 。 本 章 说 明示 例 的 业务 场景 、 数 据 仓库 架构 、 实 验 环 境 、 源 和 目标 库 的 建 
立 过 程 、 测 试 数据 和 日 期 维度 的 生成 等 内 容 。 后 面 章 节 陆续 介绍 实现 初始 数据 装载 、 定 期 数据 
装载 、 调 度 ETL 工作 流 自动 执行 、 维 度 表 技术 、 事 实 表 技术 、OLAP 和 数据 可 视 化 的 相关 方 
法 与 工具 。 限 于 篇 幅 ， 我 们 不 再 对 实体 关系 、 数 据 库 设计 范式 、ETL、OLAP 等 数据 仓库 相关 
的 基本 概念 做 出 详细 解释 。 












业务 场景 


1. 操作 型 数据 源 
示例 的 操作 型 数据 源 来 自 一 个 销售 订单 系统 ， 初 始 时 只 
实体 关系 图 如 图 12-1 所 示 。 


有 产品 、 客 户 、 销 售 订单 三 个 表 ， 





sales_order 





order number <pi> UD 
customer_number<fi2> 
product code <fil> 
order date 

entry date 

order amount 


Y 
































product | customer 
product code <pi> gb |-o customer number <pi> IÈ 
product_name customer_name 
product_category customer_street_address 
customer_zip_code 
customer_city 
customer_state 














图 12-1 数据 源 实体 关系 图 
这 个 场景 中 的 表 及 其 属性 都 很 简单 。 产品 表 和 客户 表 属 于 基本 信息 分 别 存储 产品 和 客 














户 信息 。 产品 只 有 产品 编号 、 产 品名 称 、 产 品 分 类 三 个 属性 ， 产 品 编号 是 主键 ， 唯 一 标识 一 个 
产品 。 客 户 有 六 个 属性 ， 除 客户 编号 和 客户 名 称 外 ， 还 包含 省 、 市 、 街 道 、 邮 编 四 个 客户 所 在 
地 区 属性 。 客 户 编号 是 主键 ,唯一 标识 一 个 客户 。 在 实际 应 用 中 ， 基 本 信息 表 通 常 由 后 台 应 用 
系统 维护 。 销 售 订单 表 有 六 个 属性 ， 订 单 号 是 主键 , 唯一 标识 一 条 销售 订单 记录 。 产 品 编号 和 
客户 编号 是 两 个 外 键 , 分 别 引用 产品 表 和 客户 表 的 主键 。 另外 三 个 属性 是 订单 时 间 、 登 记 时 间 
和 订单 金额 。 订单 时 间 指 的 是 客户 下 订单 的 时 间 , 订单 金额 属性 指 的 是 该 笔 订单 需要 花费 的 金 
Bi, 这 些 属性 的 含义 很 清楚 。 订 单 登记 时 间 表示 订单 录入 的 时 间 ， 大 多 数 情 况 下 它 应 该 等 同 于 
订单 时 间 。 如 果 由 于 某 种 情况 需要 重新 录入 订单 , 同时 还 要 记录 原始 订单 的 时 间 和 重新 录入 的 
时 间 ， 或 者 出 现 某 种 问题 ， 订 单 登记 时 间 灌 后 于 下 订单 的 时 间 ， 这 两 个 属性 值 就 会 不 同 。 

源 系 统 采用 关系 模型 设计 ， 为 了 减少 表 的 数量 ， 这 个 系统 只 做 到 了 2NF。 地 区 信息 依赖 
于 邮编 ， 所 以 该 模型 中 存在 传递 依赖 。 

2. 销售 订单 数据 仓库 模型 

使 用 以 下 步骤 设计 数据 仓库 模型 ; 


CD 选择 业务 流程 。 在 本 示例 中 只 涉及 一 个 销售 订单 业务 流程 。 

(2) 声明 粒度 。ETL 处 理 时 间 周 期 为 每 天 一 次 ， 这 是 数据 仓库 的 最 小 粒度 。 事 实 表 中 存 
储 按 天 汇总 的 订单 数据 。 

(3) 确认 维度 。 显 然 产品 和 客户 是 销售 订单 的 维度 。 日 期 维度 用 于 业务 集成 ， 并 为 数据 
仓库 提供 重要 的 历史 视角 ， 每 个 数据 仓库 中 都 应 该 有 一 个 日 期 维度 。 订 单 维度 是 特意 设计 的 ， 
用 于 说 明 退 化 维度 技术 。 

(4) 确认 事实 。 销 售 订单 是 当前 场景 中 唯一 的 事实 。 

示例 数据 仓库 的 实体 关系 图 如 图 12-2 所 示 。 
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图 12-2 数据 仓库 实体 关系 图 
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12.2 数据 仓库 架构 


“架构 ”是 什么 ? 这 个 问题 从 来 就 没有 一 个 准确 的 答案 。 在 软件 行业 ， 一 种 被 普遍 接受 的 
架构 定义 是 指 系统 的 一 个 或 多 个 结构 。 结 构 中 包括 软件 的 构建 (构建 是 指 软件 的 设计 与 实现 )， 
构建 外 部 可 以 看 到 属性 以 及 它们 之 间 的 相互 关系 。 参 考 此 定义 , 这 里 把 数据 仓库 架构 理解 成 构 
成 数据 仓库 的 组 件 及 其 之 间 的 关系 ， 那 么 就 有 了 如 图 12-3 所 示 的 数据 仓库 架构 图 。 


操作 型 系统 数据 仓库 系统 














外 部 致 据 
自动 化 调度 用 户 界 面 


m~~ 数据 目录 查询 引擎 
L \ 
5 
文档 抽取 过 程 M = fe. WARE TOS 


123 数据 仓库 架构 图 


图 中 显示 的 整个 数据 仓库 环境 包括 操作 型 系统 和 数据 仓库 系统 两 大 部 分 。 操 作 型 系统 的 数 
据 经 过 抽取 、 转 换 和 装载 CETL) 过 程 进入 数据 仓库 系统 。 这 里 把 ETL 过 程 分 成 了 抽取 和 转 
换 装载 两 个 部 分 。 抽 取 过 程 负责 从 操作 型 系统 获取 数据 ， 该 过 程 一 般 不 做 数据 聚合 和 汇总 , 物 
理 上 是 将 操作 型 系统 的 数据 全 量 或 增 量 复制 到 数据 仓库 系统 的 RDS 中 。 转 换 装载 过 程 将 数据 
进行 清洗 、 过 滤 、 汇 总 、 统 一 格式 化 等 一 系列 转换 操作 ， 使 数据 转 为 适合 查询 的 格式 ， 然 后 装 
载 进 数据 仓库 系统 的 TDS 中 。 传 统 数据 仓库 的 基本 模式 是 用 一 些 过程 将 操作 型 系统 的 数据 抽 
取 到 文件 ， 然 后 另 一 些 过 程 将 这 些 文件 转化 成 MySQL 这 样 的 关系 数据 库 的 记录 。 最 后 ， 第 三 
部 分 过 程 负责 把 数据 导入 进 数据 仓库 。 本 例 中 的 业务 数据 使 用 MySQL 数据 库存 储 。 


@ RDS (RAW DATA STORES ) 是 原始 数据 存储 的 意思 。 它 的 作用 主要 有 三 个 : 作为 
数据 缓冲 区 ; 提供 细节 数据 可 供 查 询 ; 保留 原始 数据 ， 便 于 跟踪 和 修正 ETL 错误 。 
本 例 中 的 RDS 使 用 HAWQ 的 HDFS 外 部 表 。 

€ TDS (TRANSFORMED DATA STORES) 意 为 转换 后 的 数据 存储 。 这 里 存储 真正 的 
数据 仓库 中 的 数据 。 本 例 中 的 TDS 使 用 HAWQ 内 部 表 。 

e ”自动 化 调度 组 件 的 作用 是 自动 定期 重复 执行 ETL 过 程 。 作 为 通用 的 需求 ， 所 有 数据 
仓库 系统 都 应 该 能 够 建立 周期 性 自动 执行 的 工作 流 作业 .传统 数据 仓库 一 般 利用 操作 
系统 自 带 的 调度 功能 (如 Linux 的 cron 或 Windows 的 计划 任务 ) 实现 作业 自动 执行 。 
本 示例 使 用 Oozie 和 Falcon 完成 自动 调度 任务 。 
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4. 


e. 
e. 
e. 
e. 
2 

e. 
e. 
e. 
e. 
e. 
e. 


数据 目录 有 时 也 被 称 为 元 数据 存储 , 它 可 以 提供 一 份 数据 仓库 中 数据 的 清单 。 一 个 好 
的 数据 目录 是 让 用 户 体验 到 系统 易 用 性 的 关键 。HAWQ 是 数据 库 系统 ， 自 带 一 系列 
元 数据 表 和 视图 。 

查询 引擎 组 件 负 责 实际 执行 用 户 查询 。 传统 数据 仓库 中 , 它 可 能 是 存储 转换 后 数据 的 
MySQL 等 关系 数据 库 系统 内 置 的 查询 引擎 ， 还 可 能 是 以 固定 时 间 间 隔 向 其 导入 数据 
的 OLAP 立方 体 ， 如 Essbase cube. HAWQ 本 身 就 是 以 一 个 强大 的 查询 引擎 而 存在 ， 
本 示例 使 用 HAWQ 作为 查询 引擎 正 是 物 尽 其 用 。 

用 户 界 面 指 的 是 最 终 用 户 所 使 用 的 接口 程序 。 可 能 是 一 个 GUI 软件 ， 如 BI 套件 的 中 
的 客户 端 软件 ， 也 可 能 就 是 一 个 浏览 器 。 本 示例 的 用 户 界 面 使 用 Zeppelin。 


实验 环境 


硬件 环境 

A VMware 虚 机 组 成 的 HDP 集群 ， 每 台 机 器 配置 如 下 : 
1SK RPM SAS 100GB 
Intel(R) Xeon(R) E5-2620 v2 (à) 2.10GHz， 双 核 双 CPU 


8G 内 存 ，8GSwap 
10000Mb/s 虚拟 网 卡 


. 软件 环境 


Linux: CentOS release 6.4, 4%'S 2.6.32-358.e16.x86 64 
Ambari: 2.4.1 

Hadoop: HDP 2.5.0 

HAWQ: 2.1.1.0 

HAWQ PXF: 3.1.1 

MySQL 5.6.14 


HDP 45 HAWQ 的 安装 部 署 过 程 参考 本 书 第 2 39. 3€ 12-1 汇总 了 各 主机 的 角色 。 














表 12-1 主机 角色 
主机 名 IP 地 址 角色 
hdpl HAWQ Segment 
hdp2 HAWOQ Standby Master, HAWQ Segment 
hdp3 172.16.1.126 HAWOQ Primary Master, HAWQ Segment 
hdp4 | 172.16.1.127 HAWQ Segment, MySQL 源 库 
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HAWQ 相关 配置 


1. 创建 客户 端 认 证 
编辑 Master 上 的 /data/hawq/master/pg_hba.conf 文件 ， 添 加 dwtest 用 户 : 


[gpadmin@hdp3 ~]$ more /data/hawq/master/pg_hba.conf 


local all gpadmin ident 

host all gpadmin 127.0.0.1/28 trust 
host all gpadmin 221/128 trust 

host all gpadmin 1:7220/621:20:26/32. trust 
host all gpadmin fe80::250:56£f:fea5:526£/128 trust 
host all gpadmin hy trust 
host all gpadmin 2772916:1:127/32 trust 
host all gpadmin 172.16.1.0/24 trust 

host all wxy 172.16.1.0/24 md5 

host all dwtest 172.16.1.0/24 md5 
[gpadmin@hdp3 ~]$ 

2. 设置 并 发 连接 数 

-- 设置 参数 


hawq config -c max_connections -v 100 
hawq config -c seg_max_connections -v 1000 
hawq config -c max prepared transactions -v 200 


-- 重启 HAWQ 


hawq restart cluster 
这 些 参数 的 含义 与 作用 参见 第 3 章 。 查 看 修改 后 的 配置 如 下 : 


[gpadmin@hdp3 ~]$ hawq config -s max connections 

GUC : max connections 

Value : 100 

[gpadmin@hdp3 -]$ hawq config -s seg max connections 

GUC : seg max connections 

Value : 1000 

[gpadmin@hdp3 -]$ hawq config -s max prepared transactions 
GUC : max prepared transactions 

Value : 200 

[gpadmin@hdp3 -]$ 


3. 创建 数据 库 用 户 
(1) 用 gpadmin 连接 HAWQ， 建 立 用 户 dwtest， 授 予 建 库 权 限 。 
-- 创建 用 户 
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create role dwtest with password '123456' login createdb; 


查看 用 户 如 下 : 


gpadmin=# \dg 


List of roles 





Role name | Attributes | Member of 
dwtest | Create DB 
gpadmin | Superuser, Create role, Create DB | 
wxy | Superuser 
gpadmin=# 
(2) 测试 登录 。 


连接 成 功 后 ， 查 看 数据 库 如 下 所 示 : 

[gpadmin@hdp3 ~]$ psql -U dwtest -d gpadmin -h hdp3 
Password for user dwtest: 

psql (8.2.15) 

Type "help" for help. 


gpadmin-» Ml 
List of databases 
Name | Owner | Encoding | Access privileges 






gpadmin | gpadmin | UTF8 
postgres | gpadmin | UTF8 
templateO | gpadmin | UTF8 
templatel | gpadmin | UTF8 


(4 rows) 


4. 创建 资源 队列 
CD 将 默认 的 pg default 的 资源 限制 由 50% 改 为 20%， 同 时 将 过 度 使 用 因子 设置 为 5。 


alter resource queue pg_default with 
(memory limit cluster-20$,core limit cluster-20$,resource overcommit factor 


(2) 建立 一 个 dwtest 用 户 使 用 的 专用 队列 ， 资 源 限 制 为 80%， 同 时 将 过 度 使 用 因子 设置 
为 2。 
create resource queue dwtest_queue with 


(parent-'pg root', memory limit cluster-80$, 
core limit cluster-80$,resource overcommit factor-2); 
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(3) 查看 资源 队列 配置 。 


select rsqname qname, parentoid poid, activestats stats, 
memorylimit mlimit, corelimit climit, resovercommit resoc, 
allocpolicy policy, vsegresourcequota vsresquota 


from pg_resqueue; 


结果 如 下 

qname | poid | stats | mlimit | climit | resoc | policy | vsresquota 
cmm SSP SS SS PTOL SS SS SS SS SSS SSS SS SSS 
Pg_root | 0 | = 1) L100% | 100% | 2 | even 
pg_default | 9800 | 20 | 20% | 20% | 5 | even | mem:256mb 
dwtest queue | 9800 | 20 | 80% | 80$ | 2 | even | mem:256mb 
(3 rows) 

(4) 用 gpadmin 将 dwtest 用 户 的 资源 队列 设置 为 新 建 的 dwtest_queue。 

-- 修改 用 户 资源 队列 
alter role dwtest resource queue dwtest queue; 
-- 查看 用 户 资源 队列 


select rolname, rsqname from pg_roles, pg_resqueue 


where pg_roles.rolresqueue=pg_resqueue.oid; 
结果 如 下 : 

rolname | rsqname 

M m ————— 

dwtest | dwtest queue 


wxy | pg default 
gpadmin | pg default 


假设 其 他 用 户 都 使 用 默认 的 pg. default 队列 。 采 用 以 上 定义 ,工作 负载 通过 资源 队列 划分 


如 下 : 


© ”如 果 没 有 活跃 用 户 使 用 pg default 队列 ，dwtest 用 户 可 以 使 用 100% 的 资源 。 

© ”如 果 有 同时 使 用 pg default 队列 的 其 他 用 户 , 则 dwtest 用 户 使 用 80%, 其 他 用 户 使 用 
20% 资 源 。 

€ 如果 没有 dwtest 用 户 的 活跃 任务 ， 其 他 使 用 pg default 队列 的 用 户 可 以 使 用 100% 的 
资源 。 

5. 配置 资源 


(1) 查看 集群 所 有 节点 都 已 启动 


select * from gp_segment configuration; 
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结果 如 下 : 


registration order |role| status | port | hostname | address |description 
---------------------- 4----4-------4-------4---------4-------------4---------- 

cil lr dpa | 5432 | hdp2 101725061125 

0 站 miu | 5432 | hdp3 | hdp3 | 

all ish] as | 40000 | hdp3 1 172:16.1.126 

2 le e | 40000 | hdp2 E tiy a a E e 

S IE pau | 40000 | hdp1 | 172.16.1.124| 

4 eps iia | 40000 | hdp4 11090729 7:16::0502 711 


(6 rows) 


所 有 节点 的 状态 都 应 该 是 启动 状态 Cstatus='u') o hawq rm rejectrequest nseg limit 参数 





保持 默认 值 0.25， 就 是 说 现 有 集群 的 全 部 4 个 Segment 中 如 果 有 两 个 宕 机 ， 则 HAWQ 资源 管 
理 器 将 直接 拒绝 查询 的 资源 请 求 。 


(2) 资源 管理 使 用 默认 的 独立 模式 
独立 模式 下 ，HAWQ 使 用 集群 节点 资源 时 ， 不 考虑 其 他 共存 的 应 用 ，HAWQ 假设 它 能 使 


用 所 有 Segment 的 资源 。 对 于 专用 HAWQ 集群 ， 独 立 模式 是 可 选 的 方案 。 


[gpadmin@hdp3 ~]$ hawq config -s hawq global rm type 
GUC : hawq global rm type 

Value : none 

[gpadmin@hdp3 ~]$ 


(3) 设置 每 个 Segment 资源 配额 
硬件 配置 内 存 8GB， 双 核 双 CPU， 共 4 个 虚拟 CPU 核 。 所 以 每 个 Segment 使 用 的 内 存 与 


CPU 核 数 配额 分 别 配置 为 8GB 和 4 核 ， 最 大 限度 利用 资源 。 


段 。 


[gpadmin@hdp3 ~]$ hawq config -s hawq rm memory limit perseg 


GUC : hawq_rm_memory limit_perseg 

Value : 8GB 

[gpadmin@hdp3 ~]$ hawq config -s hawq rm nvcore limit perseg 
GUC : hawq rm nvcore limit perseg 

Value 2 


[gpadmin@hdp3 ~]$ 


所 有 资源 队列 中 虚拟 段 的 资源 限额 均 为 默认 的 256MB, 每 个 Segment 可 以 分 配 32 个 虚拟 
并 且 8GB 是 256MB 的 32 倍 ， 每 核 2GB 内 存 ， 这 种 配置 防止 形成 资源 碎片 。 


6. 在 HDFS 上 创建 HAWQ 外 部 表 对 应 的 目录 


su - hdfs -c 'hdfs dfs -mkdir -p /data/ext' 

su - hdfs -c 'hdfs dfs -chown -R gpadmin:gpadmin /data/ext' 
su - hdfs -c 'hdfs dfs -chmod -R 777 /data/ext' 

su - hdfs -c 'hdfs dfs -chmod -R 777 /user' 


查看 外 部 表 的 HDFS 目录 ， 结 果 如 下 : 


[root@hdp3 ~]# su - hdfs -c 'hdfs dfs -ls /data' 

Found 1 items 

drwxrwxrwx  - gpadmin gpadmin 0 2017-05-05 10:48 /data/ext 
[root@hdp3 ~]# 


创建 示例 数据 库 


12.5.1 在 hdp4 上 的 MySQL 中 创建 源 库 对 象 并 生成 测试 数据 


CD 执行 下 面 的 SQL 语句 建立 源 数据 库 表 。 
-- 建立 源 数据 库 
drop database if exists source; 


create database source; 


use source; 


-- 建立 客户 表 


create table customer ( 
customer number int not null auto increment primary key comment ' 客 户 编号 


customer name varchar(50) comment ' 客 户 名 称 '， 
customer street address varchar(50) comment ' 客 户 住址 '， 
customer zip code int comment "邮编 '， 
customer city varchar(30) comment ' 所 在 城市 '， 
customer_state varchar (2) comment ' 所 在 省 份 ' 

); 


-- 建立 产品 表 

create table product ( 
product code int not null auto increment primary key comment "产品 编码 '， 
product name varchar(30) comment "产品 名 称 '， 
product category varchar(30) comment ' 产 品类 型 ' 


-- 建立 销售 订单 表 

create table sales order ( 
order number int not null auto increment primary key comment "订单 号 '， 
customer number int comment ' 客 户 编号 '， 
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product code int comment "产品 编码 '， 
order date datetime comment ' 订 单 日 期 '， 
entry date datetime comment ' 登 记 日 期 '， 
order amount decimal(10 , 2 ) comment ' 销 售 金 额 '， 
foreign key (customer number) 
references customer (customer number) 
on delete cascade on update cascade, 
foreign key (product code) 
references product (product code) 
on delete cascade on update cascade 


) 7 
(2) 执行 下 面 的 SQL 语句 生成 源 库 测 试 数 据 。 


use source; 


-- 生成 客户 表 测 试 数据 

insert into customer 

(customer name,customer street address,customer zip code, 

customer city,customer state) 

values 

('really large customers', '7500 louise dr.',17050, 'mechanicsburg','pa'), 
("small stores', '2500 woodland st.',17055, 'pittsburgh','pa'), 
("medium retailers','1111 ritter rd.',17055,'pittsburgh','pa'), 

('good companies','9500 scott st.',17050, 'mechanicsburg','pa'), 
("wonderful shops','3333 rossmoyne rd.',17050,'mechanicsburg','pa'), 
("loyal clients','7070 ritter rd.',17055,'pittsburgh','pa'), 
("distinguished partners','9999 scott st.',17050, 'mechanicsburg','pa'); 


-- 生成 产品 表 测 试 数据 

insert into product (product name,product category) 
values 

("hard disk drive', 'storage'), 

("floppy drive', 'storage'), 

("led panel', 'monitor'); 


-- 生成 100 条 销售 订单 表 测试 数据 
drop procedure if exists generate sales order data; 
delimiter // 
create procedure generate sales order data() 
begin 
drop table if exists temp sales order data; 
create table temp sales order data as select * from sales order where 1-0; 


set 8start date := unix timestamp('2016-03-01'); 


set Gend date :- unix timestamp('2016-07-01'); 
set Qi :- 1; 


274 


while @i<=100 do 
set @customer_number := floor(1 + rand() * 6); 
set @product_code := floor(1 + rand() * 2); 
set Gorder date := from_unixtime(@start_date + rand() 
* (@end date - @start_date)); 
set @amount := floor(1000 + rand() * 9000); 


insert into temp sales order data values 
(@i, @customer_number, @product_code,@order date,@order date, @amount) ; 
set @i:=@it1l; 
end while; 


truncate table sales order; 
insert into sales order 


select 
null,customer number,product code,order date,entry date,order amount 


from temp sales order data order by order date; 


commit; 


end 


// 
delimiter ; 
call generate sales order data(); 

上 面 代码 中 创建 了 一 个 MySQL 存储 过 程 ， 生 成 100 条 销售 订单 测试 数据 。 为 了 模拟 实际 
订单 的 情况 , 订单 表 中 的 客户 编号 、 产 品 编号 、 订单 时间 和 订单 金额 都 取 一 个 范围 内 的 随机 值 ， 
订单 时 间 与 登记 时 间 相 同 。 因 为 订单 表 的 主键 是 自 增 的 , 为 了 使 主键 值 和 订单 时 间 字 段 的 值 顺 
序 保持 一 致 ， 引 入 了 一 个 名 为 temp sales order data 的 表 ， 存 储 中 间 临 时 数据 。 在 后 面 章 节 中 
都 是 使 用 此 方案 生成 订单 测试 数据 。 

GO 创建 操作 源 数 据 库 的 用 户 并 授权 。 


create user 'dwtest'@'%' identified by '123456'; 
grant select on source.* to 'dwtest'Q'$'; 


12.5.2 ”创建 目标 库 对 象 


1. 创建 目标 数据 库 及 其 模式 
(1) 用 dwtest 用 户 连 接 HAWQ 














psql -U dwtest -d gpadmin -h hdp3 
(2) 建立 dw 数据 库 


create database dw; 
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G) 在 dw 库 中 建立 三 个 模式 

-- 连接 dw 数据 库 

\c dw 

-- 创建 ext 模式 

create schema ext; 

-- 创建 rds 模式 

create schema rds; 

-- 创建 tds 模式 

create schema tds; 


-- 查看 模式 


\dn 


(4) 设置 模式 查找 路 径 
-- 修改 aw 数据 库 的 模式 查找 路 径 


alter database dw set search path to ext, rds, tds; 
-- 重新 连接 dw 数据 库 

\c dw 

-- 显示 模式 查找 路 径 


show search path; 
此 时 dw 库 的 模式 查找 路 径 如 下 : 


search path 


ext, rds, tds 

(1 row) 

每 个 HAWQ 会 话 在 任 一 时 刻 只 能 连接 一 个 数据 库 。ETL 处 理 期 间 ， 需 要 将 RDS 与 TDS 
中 的 表 关 联 查 询 ， 因 此 将 RDS 和 TDS 对 象 存 放 在 单独 的 数据 库 中 显然 是 不 合适 的 。 这 里 在 
dw 库 中 创建 了 ext. rds. tds 三 个 模式 。 前 面 描述 数据 仓库 架构 时 只 提 到 了 RDS 和 TDS, Jf 
指出 本 示例 的 RDS 使 用 HAWQ 的 HDFS 外 部 表 ， 为 什么 这 里 创建 了 三 个 模式 呢 ? 究 其 原因 
如 下 : 


Sqoop 可 以 将 MySQL 数据 导入 到 HDFS 或 Hive， 但 目前 还 没有 命令 行 工具 可 以 将 
MySQL 数据 直接 导入 到 HAWQ 表 中 。 所 以 不 得 不 将 缓冲 数据 存储 到 HDFS, 再 利用 
HAWQ 的 外 部 表 进 行 访问 。 

如 果 只 创建 两 个 模式 分 别 用 作 RDS 和 TDS, 则 会 带 来 性 能 问题 .变化 数据 捕获 ( CDC ) 
时 需要 关联 RDS 和 TDS 的 表 ， 而 HAWQ 的 外 部 表 和 内 部 表 关 联 查 询 的 速度 很 慢 ， 
数据 量 非常 大 的 情况 下 ， 查 询 延 时 将 不 可 忍受 。 

通常 维度 数据 量 比 事实 数据 量 小 得 多 。 在 这 个 前 提 下 ， 用 EXT 模式 存储 直接 从 
MySQL 导出 的 数据 ， 包 括 全 部 维度 数据 和 增 量 的 事实 数据 ， 然 后 将 这 些 数 据 装载 进 
RDS 模式 内 部 表 中 。 这 人 一步 装载 的 数据 量 并 不 是 很 大 ， 而 且 没 有 关联 逻辑 ， 都 是 简 


单 的 单 表 查 询 与 数据 插入 。 在 装载 TDS 内 部 表 时 ， 仍 然 关联 RDS 5 TDS 的 表 , 但 
这 两 个 模式 中 的 表 都 是 内 部 表 ， 查 询 速 度 是 可 接受 的 。 


这 里 使 用 三 个 模式 来 划分 直接 外 部 数据 ` 源 数据 存储 和 多 维 数据 仓库 的 对 象 , 不 但 逻辑 上 
非常 清晰 ， 而 且 兼顾 了 ETL 的 处 理 速度 。 


2. 创建 EXT 模式 中 的 数据 库 对 象 
(1) 用 HAWQ 管理 员 用 户 授予 dwtest 用 户 在 dw 库 中 创建 外 部 表 的 权限 : 
psql -d dw -h hdp3 -c "grant all on protocol pxf to dwtest" 
如 果 不 授予 相应 权限 ,创建 外 部 表 时 会 报 以 下 错误 : 
ERROR: permission denied for external protocol pxf 
(2) 创建 HAWQ 外 部 表 
-- 设置 模式 查找 路 径 


set search path to ext; 


-- 建立 客户 外 部 表 
create external table customer 
( customer number int, 
customer name varchar(30), 
customer street address varchar(30), 
customer zip code int, 
customer city varchar(30), 
customer state varchar(2) ) 
location ('pxf://mycluster/data/ext/customer?profile-hdfstextsimple') 
format 'text' (delimiter-e','); 


comment on table customer is ' 客 户外 部 表 ' 7 

comment on column customer.customer number is ' 客 户 编号 '; 
comment on column customer.customer name is ' 客 户 姓名 '; 

comment on column customer.customer_street_address is ' 客 户 地址 ' 
comment on column customer.customer zip code is ' 客 户 邮编 '; 
comment on column customer.customer city is ' 客 户 所 在 城市 ' ; 
comment on column customer.customer_state is ' 客 户 所 在 省 份 '; 


-- 建立 产品 外 部 表 

create external table product 

( product code int, 
product name varchar(30), 
product category varchar(30) ) 

location ('pxf://mycluster/data/ext/product?profile-hdfstextsimple') 
format text (delimiter=e",")} 
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comment on table product is' 产 品 外 部 表 '; 

comment on column product.product code is ' 产 品 编码 ' 7 
comment on column product.product name is ' 产 品名 称 '; 
comment on column product.product category is ' 产 品类 型 '; 


-- 建立 销售 订单 外 部 表 
create external table sales order 
( order number int, 
customer number int, 
product_code int, 
order date timestamp, 
entry date timestamp, 
order amount decimal(10,2) ) 
location ('pxf://mycluster/data/ext/sales order?profile-hdfstextsimple') 


format 'text' (delimiter-e',', null-'null'); 


comment on table sales order is ' 销 售 订单 外 部 表 ' ; 

comment on column sales order.order number is ' 订 单 号 '; 
comment on column sales order.customer number is ' 客 户 编号 '; 
comment on column sales order.product code is ' 产 品 编码 '; 
comment on column sales order.order date is ' 订 单 日 期 '; 
comment on column sales order.entry date is' 登 记 日 期 '; 
comment on column sales order.order amount is ' 销 售 金额 '; 


说 明 : 

@ SMEREH MySQL 里 的 源 表 完全 对 应 ， 其 字段 与 源 表 相 同 。 

€ PX 外 部 数据 位 置 指向 前 面 12.4 节 第 6 步 创建 的 HDFS A R. 

@ 文件 格式 使 用 到 号 分 隔 的 简单 文本 格式 , 文件 中 的 "null' 字 符 串 代 表 数 据 库 中 的 NULL 
值 。 下 一 章 说 明 数 据 初 始 装载 时 会 看 到 ,为 了 让 EXT 的 数据 文件 尽 可 能 地 小 ，Sqoop 
使 用 了 压缩 选项 ， 而 hdfstextsimples 属性 的 PXF 外 部 表 能 自动 正确 读 取 Sqoop 默认 
的 gzip 压缩 文件 。 


3. 创建 RDS 模式 中 的 数据 库 对 象 
-- 设置 模式 查找 路 径 


set search_path to rds; 


-- 建立 客户 原始 数据 表 

create table customer 

( customer number int, 
customer name varchar(30), 


customer street address varchar(30), 


customer zip code int, 
customer city varchar (30), 


customer_state varchar(2) ); 
comment on table customer is “' 客 户 原始 数据 表 ' ; 


-- 建立 产品 原始 数据 表 

create table Product 

( Product_code int, 
product_name varchar (30), 


product_category varchar(30) ); 
comment on table product is ' 产 品 原始 数据 表 ' 


-- 建立 销售 订单 原始 数据 表 
create table sales order 
( order number int, 
customer number int, 
product code int, 
order date timestamp, 
entry date timestamp, 
order amount decimal(10,2) ) 
partition by range (entry date) 
( start (date '2016-01-01') inclusive 
end (date '2018-01-01') exclusive 
every (interval '1 month') ); 


comment on table sales order is ' 销 售 订单 原始 数据 表 ' ; 

说 明 : 

€ RDS 模式 中 的 表 是 HAWQ 内 部 表 。 

© RDS 模式 中 表 数 据 来 自 EXT 表 ， 并 且 是 原样 装载 ， 不 需要 任何 转换 ， 因 此 其 表 结 构 
5 EXT 中 的 外 部 表 一 致 。 

€ HAWQ 支 持 row 和 parquet 两 种 数据 存储 格式 ,如 果 单 纯 从 性 能 方面 考虑 ,似乎 parquet 
列 格 式 更 适合 数据 仓库 应 用 。 这 里 使 用 默认 的 row 格式 ， 是 因为 注意 到 文档 中 这 样 
一 句 话 : “HAWQ does not support using ALTER TABLE to ADD or DROP a column in 
an existing Parquet table.”。 在 任何 项 目 中 ， 数 据 库 表 创 建 完 后 就 再 也 不 用 增删 字段 
的 情况 几乎 是 不 可 能 发 生 的 。 关 于 行列 存储 的 选择 ， 
http://storage.chinabyte.com/491/12390991.shtml 这 篇 文章 进行 了 比较 客观 的 论述 。 

@ ”为 了 保持 查询 弹性 使 用 资源 和 更 好 地 数据 本 地 化 ,使 用 默认 的 随机 数据 分 布 策略 ， 而 
没有 使 用 哈 希 分 布 。 关 于 HAWQ 表 数 据 的 存储 与 分 布 ， 参 见 第 6 章 “ 存 储 管理 ”。 
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€ RDS 是 实际 上 是 原始 业务 数据 的 副本 ， 维 度数 据 量 小 ， 可 以 覆盖 装载 全 部 数据 ， 而 
事实 数据 量 大 ， 需 要 追加 装载 每 天 的 新 增 数据 。 因 此 事实 表 采 取 分 区 表 设 计 ， 每 月 数 
据 一 分 区 ， 以 登记 日 期 作为 分 区 键 ， 预 创建 2017 年 一 年 的 分 区 。 


4. 创建 TDS 模式 中 的 数据 库 对 象 
-- 设置 模式 查找 路 径 


set search path to tds; 


-- 建立 客户 维度 表 

create table customer_dim ( 
customer sk bigserial, 
customer number int, 
customer name varchar(50), 
customer street address varchar(50), 
customer zip code int, 
customer city varchar(30), 
customer state varchar(2), 
isdelete boolean default false, 
version int, 


effective date date ); 


comment on table customer dim is ' 客 户 维度 表 ' 

comment on column customer dim.customer sk is ' 客 户 维度 代理 键 '; 
comment on column customer dim.customer number is ' 客 户 编号 '; 
comment on column customer dim.isdelete is ' 是 否 删除 ' ; 
comment on column customer dim.version is ' 版 本 '; 


comment on column customer dim.effective date is ' 生 效 日 期 '; 


-- 建立 产品 维度 表 

create table product_dim ( 
product_sk bigserial, 
product_code int, 
product name varchar (30), 
product category varchar (30), 
isdelete boolean default false, 
version int, 
effective_date date ); 


comment on table product dim is ' 产 品 维度 表 ' 

comment on column product dim.product sk is "产品 维度 代理 键 ' 
comment on column product dim.product code is "产品 编码 ' 7 
comment on column product dim.isdelete is ' 是 否 删除 '; 
comment on column product dim.version is ' 版 本 '; 


comment on column product dim.effective date is ' 生 效 日 期 '， 


-- 建立 订单 维度 表 


create table order dim ( 


order sk bigserial, 


order number int, 


isdelete boolean default false, 


version int, 
effective date date ); 


comment 
comment 
comment 
comment 
comment 


comment 


on 
on 
on 
on 
on 


on 


table order dim is ' 订 单 维度 表 '; 

column order dim.order sk is ' 订 单 维度 代理 键 '; 
column order dim.order number is ' 订 单 号 '; 
column order dim.isdelete is ' 是 否 删除 ' 7 
column order dim.version is ' 版 本 '; 

column order dim.effective date is ' 生 效 日 期 '; 


-- 建立 日 期 维度 表 


create table date dim ( 


date sk bigserial, 
date date, 
month smallint, 


month name varchar(9), 


quarter smallint, 


year smallint ); 


comment 
comment 
comment 
comment 
comment 
comment 


comment 


on 
on 
on 
on 
on 
on 


on 


table date dim is ' 日 期 维度 表 ' 

column date dim.date sk is ' 日 期 维度 代理 键 '; 
column date dim.date is ' 日 期 '; 

column date dim.month is ' 月 份 '; 

column date dim.month name is ' 月 份 名 称 '; 
column date dim.quarter is ' 季 度 '; 

column date dim.year is ' 年 份 '; 


-- 建立 销售 订单 事实 表 


create table sales order fact ( 


order sk bigint, 


customer sk bigint, 


Product sk bigint, 


order date sk bigint, 


year month int, 


order amount decimal(10,2) ) 


partition by range (year month) 
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( partition p201601 start (201601) inclusive , 
partition p201602 start (201602) inclusive , 
partition p201603 start (201603) inclusive , 
partition p201604 start (201604) inclusive , 
partition p201605 start (201605) inclusive , 
partition p201606 start (201606) inclusive 
partition p201607 start (201607) inclusive 
partition p201608 start (201608) inclusive 
partition p201609 start (201609) inclusive , 
partition p201610 start (201610) inclusive , 
partition p201611 start (201611) inclusive , 
partition p201612 start (201612) inclusive 

partition p201701 start (201701) inclusive , 
partition p201702 start (201702) inclusive 
partition p201703 start (201703) inclusive 
partition p201704 start (201704) inclusive , 
partition p201705 start (201705) inclusive , 
partition p201706 start (201706) inclusive , 
partition p201707 start (201707) inclusive , 
partition p201708 start (201708) inclusive , 
partition p201709 start (201709) inclusive , 
partition p201710 start (201710) inclusive , 
partition p201711 start (201711) inclusive , 
partition p201712 start (201712) inclusive 

end (201801) exclusive ); 


comment on table sales order fact is ' 销 售 订单 事实 表 ' 

comment on column sales order fact.order sk is ' 订 单 维度 代理 键 '; 

comment on column sales order fact.customer sk is ' 客 户 维度 代理 键 '; 

comment on column sales order fact.product sk is "产品 维度 代理 键 ' 

comment on column sales order fact.order date sk is ' 日 期 维度 代理 键 '; 

comment on column sales order fact.year month is ' 年 月 分 区 键 '; 

comment on column sales order fact.order amount is ' 销 售 金额 '; 

说 明 : 

€ TDS 模式 中 的 表 是 HAWQ 内 部 表 。 

© 比 源 库 多 了 一 个 日 期 维度 表 . 数据 仓库 可 以 追踪 历史 数据 ， 因 此 每 个 数据 仓库 都 有 日 
期 时 间 相 关 的 维度 表 。 

€ ”为 了 捕获 和 表示 数据 变化 ， 除 日 期 维度 表 外 ,其 他 维度 表 比 源 表 多 了 代理 键 、 是 否 删 
除 标志 、 版 本 号 和 版 本 生效 日 期 四 个 字段 。 日 期 维度 一 次 性 生成 数据 后 就 不 会 改变 ， 
因此 除了 日 期 本 身 相 关 属 性 ， 只 增加 了 一 列 代理 键 。 

e ”事实 表 由 维度 表 的 代理 键 和 度量 属性 构成 。 目 前 只 有 一 个 销售 订单 金额 的 度量 值 。 
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e ”由 于 事实 表 数 据 量 大 ， 事 实 表 采 取 分 区 表 设 计 。 事 实 表 中 宛 余 了 一 列 年 月 ， 作 为 分 区 
键 . 之 所 以 用 年 月 做 范围 分 区 , 是 考虑 到 数据 分 析 时 经 常 使 用 年 月 分 组 进行 查询 和 统 
计 ， 这 样 可 以 有 效 利用 分 区 消除 提高 查询 性 能 。 与 rds.sales_order 不 同 ， 这 里 显 式 定 
义 了 2016、2017 两 年 的 分 区 。 

e 出 于 同样 的 考虑 ， 与 RDS 一 样 ，TDS 表 也 使 用 row 存储 格式 和 随机 数据 分 布 策略 。 


12.5.3 ”装载 日 期 维度 数据 

日 期 维度 是 数据 仓库 中 的 一 个 特殊 角色 。 日 期 维度 包含 时 间 概念 ,而 时 间 是 最 重要 的 。 因 
为 数据 仓库 的 主要 功能 之 一 就 是 存储 和 追溯 历史 数据 ,所 以 每 个 数据 仓库 里 的 数据 都 有 一 个 时 
间 特 征 。 本 例 中 创建 一 个 HAWQ 的 函数 ， 一 次 性 预 装载 日 期 数据 。 

-- 生成 日 期 维度 表 数 据 的 函数 


create or replace function fn populate date (start dt date, end dt date) 





returns void as $$ 
declare 
v_date date:= start dt; 
v_datediff int:= end dt - start dt; 
begin 
for i in 0 .. v_datediff loop 
insert into date dim(date, month, month name, quarter, year) 
values(v date, extract (month from v date), to char(v date, 'mon'), 
extract(quarter from v date), extract(year from v date)); 
v date := v date + 1; 
end loop; 
analyze date dim; 
end; $$ 
language plpgsql; 


执行 函数 生成 日 期 维度 数据 : 
select fn populate date(date '2000-01-01', date '2020-12-31'); 
查询 生成 的 日 期 : 


select min(date_sk) min sk, min(date) min date, max(date_sk) max_sk, 





max(date) max_date, count(*) c 
from date_dim; 


查询 结果 如 下 : 

min sk | min date | max sk | max date | c 

T—--—---- d-----------——p------—-—R--——------—----- 
2:221:22000201-01:1 77673. | 2020-12-31) 7671 

(1 row) 
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至 此 ， 我 们 的 示例 数据 仓库 模型 搭建 完成 ， 后 面 章节 将 实现 ETL. 


12.6 pg 


本 章 我 们 使 用 一 个 简单 而 典型 的 销售 订单 示例 , 建立 数据 仓库 模型 。 操 作 型 源 数 据 存储 在 
MySQL 数据 库 中 ， 数 据 仓库 使 用 HAWQ 构建 。 为 了 满足 ETL 的 性 能 需求 ， 我 们 在 HAWQ 
库 中 创建 了 三 个 模式 ,分 别 用 作业 务 数据 临时 存储 ( 增 量 ) 、 原 始 数据 存储 〈 全 量 ) 和 转换 后 
的 数据 存储 。 事 实 表 采 用 分 区 设计 ， 并 且 使 用 元 余 的 年 月 列 作为 分 区 键 。HAWQ 内 部 表 均 采 
用 默认 的 row 存储 格式 和 随机 数据 分 布 策略 。 除 了 建立 相关 数据 库 对 象 ， 还 在 MySQL 和 
HAWQ 中 分 别 生成 了 原始 业务 数据 和 日 期 维度 数据 。 
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在 数据 仓库 可 以 使 用 前 ,需要 装载 历史 数据 。 这 些 历史 数据 是 导入 进 数据 仓库 的 第 一 个 数 
据 集合 。 首 次 装载 被 称 为 初始 装载 ,一般 是 一 次 性 工作 。 由 最 终 用 户 来 决定 有 多 少 历史 数据 进 
入 数据 仓库 。 例 如 ， 数 据 仓库 使 用 的 开始 时 间 是 2017 年 3 月 1 日 ， 而 用 户 希 望 装载 两 年 的 历 
史 数 据 ,那么 应 该 初始 装载 2015 年 3 月 1 日 ~2017 年 2 月 28 日 之 间 的 源 数据 。 在 2017 年 3 
月 2 日 装载 2017 年 3 月 1 日 的 数据 (假设 执行 频率 是 每 天 一 次 ) ， 之 后 周期 性 地 每 天 装载 前 
一 天 的 数据 ,在 装载 事实 表 前 , 必须 先 装载 所 有 的 维度 表 . 因为 事实 表 需 要 引用 维度 的 代理 键 。 
这 不 仅 针对 初始 装载 ， 也 针对 定期 装载 。 本 章 说明 执 行 初始 装载 的 步骤 ,包括 标 识 源 数据 、 维 
度 历史 的 处 理 、 用 Sqoop 抽取 数据 、 用 HAWQ 开发 和 验证 初始 装载 过 程 等 。 


1 3. 1 用 Sqoop 初始 数据 抽取 


Sqoop 是 一 个 在 Hadoop 与 结构 化 数据 存储 (如 关系 数据 库 ) 之 间 高 效 传输 大 批量 数据 的 
工具 。 它 在 2012 4E 3 月 被 成 功 角 化 ,现在 已 是 Apache 的 顶级 项 目 。 Sqoop 有 Sqoopl 和 Sqoop2 
Wif&. Sqoopl 最 后 的 稳定 版 本 是 1.4.6, Sqoop2 最 后 版 本 是 1.99.6. ii BAER, 1.99.6 5j 1.4.6 
并 不 兼容 ， 而 且 截 至 目前 为 止 ，1.99.6 并 不 完善 ， 不 推荐 在 生产 环境 中 部 署 。Sqoop1 架构 如 
图 13-1 所 示 。HDP 2.5 中 自 带 Sqoop 1.4.6 版 本 。 





13-1 Sqoopl 架构 


本 例 使 用 Sqoop 将 MySQL 的 数据 抽取 到 HDFS 上 的 指定 目录 ， 然 后 利用 HAWQ 外 部 表 
功能 将 HDFS 数据 文件 装载 到 内 部 表 中 。 表 13-1 汇总 了 示例 中 维度 表 和 事实 表 用 到 的 源 数据 
表 及 其 抽取 模式 。 

表 13-1 数据 源 抽取 模式 














源 数 据 表 HDFS 目录 对 应 EXT 模式 中 的 表 抽取 模式 

customer /data/ext/customer customer 整体 、 拉 取 

product | /data/ext/product product | 整体 、 拉 取 

sales_order | /data/ext/sales_order sales_order | 基于 时 间 戳 的 CDC、 拉 取 











13.1.1 覆盖 导入 

对 于 customer, product 这 两 个 表 采 用 整体 拉 取 的 方式 抽 数 据 。ETL 通常 是 按 一 个 固定 的 
时 间 间 隔 ,周期 性 定时 执行 的 ， 因 此 对 于 整体 拉 取 的 方式 而 言 ， 每 次 导入 的 数据 需要 覆盖 上 次 
导入 的 数据 。Sqoop 提供 了 delete-target-dir 参数 实现 覆盖 导入 。 该 参数 指示 在 每 次 抽取 数据 前 
先 将 目标 目录 删除 , 作用 是 提供 了 一 个 寡 等 操作 的 选择 。 所 谓 寡 等 操作 指 的 是 其 执行 任意 多 次 
所 产生 的 影响 均 与 一 次 执行 的 影响 相同 .这样 就 能 在 导入 失败 或 修复 bug 后 可 以 再 次 执行 该 操 
作 ， 而 不 用 担心 重复 执行 会 对 系统 造成 数据 混乱 。 


13.1.2” 增 量 导 入 
Sqoop 提供 了 增 量 导入 模式 ， 用 于 只 导入 比 已 经 导入 行 新 的 数据 行 。 表 13-2 所 示 参 数 用 
来 控制 增 量 导入 。 
表 13-2 Sqoop 增 量 导入 参数 





—check-column | 在 确定 应 该 导入 哪些 行 时 ， 指 定 被 检查 的 列 。 列 不 能 是 
CHAR/NCHAR/VARCHAR/VARNCHAR/LONGVARCHAR/LONGNVARCHAR 数据 类 型 





—incremental 指定 Sqoop 怎样 确定 哪些 行 是 新 行 。 有 效 值 是 append 和 lastmodified 
—last-value 指定 已 经 导入 数据 的 被 检查 列 的 最 大 值 








Sqoop 支持 两 种 类 型 的 增 量 导入 : append 和 lastmodified。 可 以 使 用 --incremental 参数 指定 
增 量 导入 的 类 型 。 当 被 导入 表 的 新 行 具有 持续 递增 的 行 id 值 时 ， 应 该 使 用 append 模式 。 指 定 
行 id 为 --check-column 的 列 。Sqoop 导入 那些 被 检查 列 的 值 比 --last-value 给 出 的 值 大 的 数据 行 。 
Sqoop 支持 的 另 一 种 表 修改 策略 叫做 lastmodified 模式 。 当 源 表 的 数据 行 可 能 被 修改 ， 并 且 每 
次 修改 都 会 更 新 一 个 last-modified 列 为 当前 时 间 惟 时， 应 该 使 用 lastmodified 模式 。 那 些 被 检 
查 列 的 时 间 戳 比 last-value 给 出 的 时 间 戳 新 的 数据 行 被 导入 。 

增 量 导入 命令 执行 后 ， 在 控制 台 输 出 的 最 后 部 分 ， 会 打印 出 后 续 导 入 需要 使 用 的 
last-value。 当 周期 性 执行 导入 时 ， 应 该 用 这 种 方式 指定 --last-value 参数 的 值 ， 以 确保 只 导入 新 
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的 或 修改 过 的 数据 。 可 以 通过 一 个 增 量 导入 的 保存 作业 自动 执行 这 个 过 程 , 这 是 适合 重复 执行 
增 量 导入 的 方式 。 
有 了 对 Sqoop 增 量 导入 的 基本 了 解 ， 下 面 看 一 下 如 何在 本 示例 中 使 用 它 抽 取 数 据 。 对 于 
sales order 这 个 表 采 用 基于 时 间 戳 的 CDC 拉 取 方式 抽 数 据 。 这 里 假设 源 系 统 中 销售 订单 记录 
- 旦 入 库 就 不 再 改变 , 或 者 可 以 忽略 改变 。 也 就 是 说 销售 订单 是 一 个 随时 间 变 化 单 向 追加 数据 
的 表 。sales_order 表 中 有 两 个 关于 时 间 的 字段 ，order_date 表示 订单 时 间 ，entry_date 表示 订单 
数据 实际 插入 表 里 的 时 间 ， 两 个 时 间 可 能 不 同 。 那 么 用 哪个 字段 作为 CDC 的 时 间 戳 呢 ? 设想 
这 样 的 情况 ， 一 个 销售 订单 的 订单 时 间 是 2017 年 1 月 1 日 , 实际 插入 表 里 的 时 间 是 2017 年 1 
月 2 日 ，ETL 每 天 0 点 执行 ， 抽 取 前 一 天 的 数据 。 如 果 按 order date 抽取 数据 ， 条 件 为 where 
order date >= '2017-01-02' AND order date <'2017-01-03'， 则 2017 年 1 月 3 日 0 点 执行 的 ETL 
不 会 捕获 到 这 个 新 增 的 订单 数据 。 所 以 应 该 以 entry. date 作为 CDC [Ky ITT AK. 


13.1.3 ”建立 初始 抽取 脚本 
用 sqoop 操作 系统 用 户 建立 初始 数据 抽取 脚本 文件 ~/init_extract.sh， 内 容 如 下 : 


#!/bin/bash 


+ 建立 Sqoop 增 量 导入 作业 ， 以 order_number 作为 检查 列 ， 初 始 的 last-value 是 0 

sqoop job --delete myjob_incremental_import 

sqoop job --create myjob_incremental_import \ 

-- import \ 

--connect 
"jdbc:mysql://172.16.1.127:3306/source?usessl-false&user-dwtest&password-12345 
Gn N 

--table sales order \ 

--target-dir /data/ext/sales order \ 

--compress \ 

--where "entry date < current date()" \ 

--incremental append \ 

--check-column order number \ 

--last-value 0 


# 全 量 抽取 客户 表 

Sqoop import --connect jdbc:mysql://172.16.1.127:3306/source --username dwtest 
--password 123456 --table customer --target-dir /data/ext/customer 
--delete-target-dir --compress 


# 全 量 抽取 产品 表 

Sqoop import --connect jdbc:mysql://172.16.1.127:3306/source --username dwtest 
--password 123456 --table product --target-dir /data/ext/product 
--delete-target-dir --compress 
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# 首次 全 量 抽取 销售 订单 表 

sqoop job --exec myjob incremental import 

说 明 : 

e ”为 了 保证 外 部 表 数 据 量 尽 可 能 小 ， 使 用 compress 选项 进行 压缩 ，Sqoop 默认 的 压缩 
算法 是 gzip，hdfstextsimples 属性 的 HAWQ PXF 外 部 表 能 自动 正确 读 取 这 种 格式 的 
压缩 文件 。 

e ”执行 时 先 重建 Sqoop 增 量 抽取 作业 ， 指 定 last-value 为 0。 由 于 order number 都 是 大 
于 0 的 ， 因 此 初始 时 会 装载 所 有 订单 数据 。 

将 文件 修改 为 可 执行 模式 : 


chmod 755 ~/init_extract.sh 


向 HAWQ 初始 装载 数据 


13.2.1. 数据 源 映射 

表 13-3 显示 了 本 示例 需要 的 源 数 据 关 键 信息 ， 包 括 源 数据 表 、 对 应 的 数据 仓库 目标 表 等 
属性 。 客 户 和 产品 的 源 数据 直接 与 其 数据 仓库 里 的 目标 表 、customer_dim 和 product_dim 表 相 
对 应 ， 而 销售 订单 事务 表 是 多 个 数据 仓库 表 的 数据 源 。 











表 13-3 ”数据 源 映射 
源 数据 类 型 文件 名 / 表 名 数据 仓库 中 的 目标 表 
a a ee etai 
产品 MySQL # product product. dim 
| 销售 订单 | mysa% sales order aider: diim, salesviorder fact | 





13.2.2 ”确定 SCD 处 理 方法 
标识 出 了 数据 源 ， 现 在 要 考虑 维度 历史 的 处 理 。 渐 变 维 (SCD) 是 一 种 在 多 维 数据 仓库 中 
实现 维度 历史 的 技术 。 有 三 种 不 同 的 SCD 类 型 : SCD 类 型 1 (SCD1) , SCD 类 型 2 (SCD2) , 
SCD 类 型 3 (SCD3) : 
€ SCD1: 通过 更 新 维度 记录 直接 覆盖 已 存在 的 值 ， 它 不 维护 记录 的 历史 。SCD1 一 般 
用 于 修改 错误 的 数据 。 
€ SCD2: 在 源 数 据 发 生变 化 时 ， 给 维度 记录 建立 一 个 新 的 “版 本 ” ， 从 而 维护 维度 历 
X. SCD2 不 删除 、 修 改 已 存在 的 数据 。 
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€ SCD3: 通常 用 作 保持 维度 记录 的 几 个 版 本 。 它 通过 给 某 个 数据 单元 增加 多 个 列 来 维 
护 历史 。 例 如 ， 为 了 记录 客户 地 址 的 变化 ，customer dim 维度 表 有 一 个 
customer address 列 和 一 个 previous customer address 列 ， 分 别 记录 当前 和 上 一 个 版 
本 的 地 址 。SCD3 可 以 有 效 维护 有 限 的 历史 , 而 不 像 SCD2 那样 保存 全 部 历史 。SCD3 
很 少 使 用 ， 它 只 适用 于 数据 的 存储 空间 不 足 并 且 用 户 接受 有 限 维 度 历史 的 情况 。 


同一 维度 表 中 的 不 同 字段 可 以 有 不 同 的 变化 处 理 方式 。 在 传统 数据 仓库 中 ， 对 于 SCD 

- 般 就 直接 UPDATE 更 新 属性 ， 而 SCD2 则 要 新 增 记录 。 但 HAWQ 没有 提供 UPDATE. 

DELETE 等 DML 操作 ， 因 此 对 于 所 有 属性 变化 均 增 加 一 条 记录 ， 即 所 有 维度 属性 都 按 SCD2 
方式 处 理 。 


13.2.3 ”实现 代理 键 
多 维 数据 仓库 中 的 维度 表 和 事实 表 一 般 都 需要 有 一 个 代理 键 , 作为 这 些 表 的 主键 , 代理 键 
- 般 由 单列 的 自 增 数字 序列 构成 。HAWQ 中 的 bigserial 数据 类 型 在 功能 上 与 MySQL 的 
auto_increment 类 似 ， 常 用 于 定义 自 增 列 。 但 它 的 实现 方法 却 与 Oracle 的 sequence 类 似 ， 当 创 
建 bigserial 字段 的 表 时 ，HAWQ 会 自动 创建 一 个 自 增 的 sequence 对 象 ，bigserial 字段 自动 引 
用 sequence 实现 自 增 。 


13.2.4 ”建立 初始 装载 脚本 

所 有 技术 实现 的 细节 都 清楚 后 , 现在 编写 初始 数据 装载 脚本 。 需 要 执行 两 步 主要 操作 ， 
是 将 外 部 表 的 数据 装载 到 RDS 模式 的 表 中 ,二 是 向 TDS 模式 中 的 表 装 载 数 据 。 用 gpadmin 操 
作 系 统 用 户 建立 初始 数据 装载 脚本 文件 ~/init_load.sql， 内 容 如 下 : 

-- 分 析 外 部 表 

analyze ext.customer; 


analyze ext.product; 
analyze ext.sales_order; 


-- 将 外 部 数据 装载 到 原始 数据 表 
set search path to rds; 


truncate table customer; 

truncate table product; 

truncate table sales order; 

insert into customer select * from ext.customer; 
insert into product select * from ext.product; 


insert into sales order select * from ext.sales order; 


-- 分 析 rds 模式 的 表 
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analyze rds.customer; 


analyze rds.product; 


analyze rds.sales_ order; 


-- 装载 数据 仓库 数据 
set search path to tds; 


truncate table 
truncate table 
truncate table 
truncate table 


-- 序列 初始 化 
alter sequence 
alter sequence 


alter sequence 


-- 装载 客户 维度 表 


customer_dim; 
product_dim; 
order dim; 

sales order fact; 


customer dim customer sk seq restart with 1; 
product dim product sk seq restart with 1; 


order dim order sk seq restart with 1; 


insert into customer dim 


(customer number, customer name, customer street address, customer zip code, 


customer city, customer state, version, effective date) 


select tl.customer number, tl.customer name, tl.customer street address, 


tl.customer zip code, tl.customer city, tl.customer state, 


1, '2016- 


03=01” 


from rds.customer tl 


order by tl.customer number; 


-- 装载 产品 维度 表 


insert into Product_dim 


(product_code, 


product name, product category, version, effective date) 


select product code, product name, product category, 1, '2016-03-01' 


from rds.product t1 


order by tl.product code; 


-- 装载 订单 维度 表 


insert into order dim (order number,version,effective date) 


select order number, 1, order date 


from rds.sales order t1 


order by tl.order number; 


-- 装载 销售 订单 事实 表 


insert into sales_order_fact 


select order_sk,customer_sk,product_sk,date_sk,e.year*100 + 
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e.month,order amount 
from rds.sales order a, 
order dim b, 
customer dim c, 
product dim d, 
date dim e 
where a.order number = b.order number 
and a.customer number = c.customer number 
and a.product code - d.product code 
and date(a.order date) - e.date; 


-- 分 析 tds 模式 的 表 
analyze customer_dim; 
analyze product_dim; 
analyze order dim; 


analyze sales order fact; 

说 明 : 

© 装载 前 清空 表 ， 以 及 重新 初始 化 序列 的 目的 是 为 了 可 重复 执行 初始 装载 脚本 。 
€ ”依据 HAWQ 的 建议 ， 装 载 数据 后 ， 执 行 查询 前 ， 先 分 析 表 以 提高 查询 性 能 。 


建立 初始 ETL 脚本 


前 面 的 数据 抽取 脚本 文件 的 属 主 是 sqoop 用 户 ， 而 数据 装载 脚本 文件 的 属 主 是 gpadmin 
用 户 。 除 了 这 两 个 用 户 以 外 ， 还 需要 使 用 hdfs 用 户 执行 文件 操作 。 为 了 简化 多 用 户 调用 执行 ， 
用 root 用 户 将 所 有 需要 的 操作 封装 到 一 个 文件 中 , 提供 统一 的 初始 数据 装载 执行 入 口 。 用 root 
操作 系统 用 户 建立 初始 ETL 脚本 文件 ~/init_etl.sh， 内 容 如 下 : 


#!/bin/bash 


# 为 了 可 以 重复 执行 初始 装载 过 程 ， 先 使 用 hdfs 用 户 删除 销售 订单 外 部 表 目 录 
su - hdfs -c 'hdfs dfs -rm -r /data/ext/sales order/*' 


* 使 用 sqoop 用 户 执行 初始 抽取 脚本 


su - sqoop -c '-/init extract.sh' 
* 使 用 gpadmin 用 户 执行 初始 装载 脚本 


su - gpadmin -c ‘export PGPASSWORD-123456;psql -U dwtest -d dw -h hdp3 -f 
~/init_load.sql' 


291 


说 明 : 

€ 使 用 su 命令 ,以 不 同 用 户 执行 相应 的 脚本 文件 。 

€  Sqoop incremental append 与 delete-target-dir 参数 不 能 同时 使 用 。 因 此 为 了 可 重复 
执行 Sqoop 增 量 抽取 作业 ， 先 要 用 hdfs 用 户 删 除 相 应 目录 下 的 所 有 文件 。 

€ ”由 于 mysql-connector 的 版 本 问题 ， 可 能 导致 Sqoop 执行 时 出 现下 面 的 异常 ， 用 最 新 
版 本 的 MySQL JDBC 包 替 换 老 版 本 通常 能 解决 此 问题 。 


ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: 


Streaming result set com.mysql.jdbc.RowDataDynamic@xxxxxxx is still active. 
将 文件 修改 为 可 执行 模式 : 
chmod 755 ~/init_etl.sh 
用 root 用 户 执行 初始 ETL 脚本 : 
~/init_etl.sh 
执行 以 下 查询 验证 初始 ETL 结果 : 


select order number, 
customer_name, 
product_name, 
date, 
order_amount amount 
from sales order fact a, 
customer dim b, 
product dim c, 
order dim d, 
date dim e 
where a.customer sk - b.customer sk 
and a.product sk - c.product sk 
and a.order sk - d.order sk 
and a.order date sk - e.date sk 
order by order number; 


共 装 载 100 条 销售 订单 数据 ， 最 后 5 条 如 下 所 示 。 


96 | really large customers | hard disk drive | 2016-06-23 | 7024.00 
97 | good companies | hard disk drive | 2016-06-23 | 6046.00 
98 | small stores | hard disk drive | 2016-06-23 | 8018.00 
99 | loyal clients | floppy drive | 2016-06-25 | 8313.00 
100 | good companies | floppy drive | 2016-06-28 | 1161.00 
(100 rows) 
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13.4 Jg 


数据 仓库 正式 投入 使 用 前 ， 需 要 向 其 中 装载 历史 数据 ， 这 通常 是 一 次 性 操作 。 初 始 ETL 
的 一 般 过 程 包括 : 识别 数据 源 ; 数据 映射 ; 确定 数据 导入 方式 ; 确定 SCD 处 理 方法 等 。Sqoop 
用 于 在 关系 数据 库 和 HDFS 间 传 递 数据 ， 能 实现 覆盖 导入 和 增 量 导入 。HAWQ 的 SQL 脚本 用 
以 实现 数据 的 转换 与 装载 。 为 了 简化 多 用 户 调用 执行 ， 以 root 操作 系统 用 户 将 所 有 需要 的 操 
作 封 装 到 一 个 文件 中 ， 提 供 统一 的 初始 数据 装载 执行 入 口 。 
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初始 装载 只 在 开始 数据 仓库 使 用 前 执行 一 次 ， 然 而 ， 必 须 按时 调度 定期 执行 ETL。 与 初 
始 装 载 不 同 ,定期 装载 一 般 都 是 增 量 的 , 而 且 需 要 捕获 并 记录 数据 的 变化 历史 。 本 章 说 明 执行 
定期 ETL 的 步骤 , 包括 识别 源 数据 与 装载 类 型 、 确 定 变 化 数据 捕获 方式 、 使 用 HAWQ 开发 和 
测试 定期 装载 等 过 程 。 在 某 些 实时 性 要 求 较 高 的 场景 中 , 普通 的 以 天 作为 执行 周期 将 不 再 适用 ， 
本 章 最 后 讨论 一 种 准 实时 数据 抽取 方案 。 


14.1 变化 数据 捕获 


数据 获取 处 理 需要 重点 考虑 增 量 抽 取 ， 也 被 称 为 变化 数据 捕获 ， 简 称 CDC。 假 设 一 个 数 
据 仓库 系统 , 在 每 天 夜里 的 业务 低 峰 时 间 从 操作 型 源 系统 抽取 数据 ,那么 增 量 抽取 只 需要 过 去 
24 小 时 内 发 生变 化 的 数据 。 变 化 数据 捕获 也 是 建立 准 实时 数据 仓库 的 关键 技术 。 

当 能 够 识别 并 获得 最 近 发 生变 化 的 数据 时 , 抽取 及 其 后 面 的 转换 、 装 载 操作 显然 都 会 变 得 
更 高 效 ， 因 为 要 处 理 的 数据 量 会 小 很 多 。 遗 憾 的 是 ， 很 多 源 系 统 很 难 识别 出 最 近 变 化 的 数据 ， 
或 者 必须 侵入 源 系 统 才 能 做 到 。 变 化 数据 捕获 是 数据 抽取 中 典型 的 技术 挑战 。 

1. 变化 数据 捕获 方法 

常用 的 变化 数据 捕获 方法 有 时 间 戳 、 快 照 、 触 发 器 和 日 志 4 种 。 相 信和 熟悉 数据 库 的 读者 对 
这 些 方法 都 不 会 陌生 。 时 间 戳 方法 需要 源 系统 有 相应 的 数据 列表 示 最 后 的 数据 变化 。 快照 方法 
可 以 使 用 数据 库 系 统 自 带 的 机 制 实现 ， 如 Oracle 的 物化 视图 技术 ， 也 可 以 自己 实现 相关 逻辑 ， 
但 会 比较 复杂 。 触 发 器 是 关系 数据 库 系统 具有 的 特性 ， 源 表 上 建立 的 触发 器 会 在 对 该 表 执行 
insert, update. delete 等 语句 时 被 触发 ， 触 发 器 中 的 逻辑 用 于 捕获 数据 的 变化 。 日 志 可 以 使 用 
应 用 日 志 或 系统 日 志 , 这 种 方式 对 源 系 统 不 具有 侵入 性 , 但 需要 额外 的 日 志 解 析 工 作 。 表 14-1 
总 结 了 这 4 种 方案 的 特点 。 


表 14-1 四 种 CDC 方案 比较 

比较 项 目 at iE 触发 器 快照 日 志 
能 区 分 插入 /更 新 5 是 
周期 内 ， 检 测 到 多 次 更 新 “| 否 是 
能 检测 到 删除 是 
不 具有 侵入 性 
支持 实时 
不 依赖 数据 库 

2. 识别 数据 源 与 装载 类 型 

定期 装载 首先 要 识别 数据 仓库 的 每 个 事实 表 和 每 个 维度 表 用 到 的 并 且 是 可 用 的 源 数 据 。 然 
后 决定 适合 装载 的 抽取 模式 和 维度 历史 装载 类 型 。 表 14-2 汇总 了 本 示例 的 这 些 信息 。 

R142 ”定期 装载 类 型 
EXT 模 式 | RDS 模式 | TDS 模式 抽取 模式 维度 历史 装载 类 型 


po [aas a p e 
| produet | produet | produet | produet dim | 整体, tue | 所 有 属性 均 为 SCD2 | 
sales_order sales_order a ea Reid 

3. 处 理 渐变 维 ( SCD ) 

上 一 章 提 到 ，HAWQ 只 有 INSERT， 没 有 UPDATE. DELETE 操作 ， 因 此 所 有 维度 属性 
都 使 用 SDC2 记录 全 部 历史 变化 。 在 捕获 数据 变化 时 , 需要 使 用 维度 表 的 当前 版 本 数据 与 从 业 
务 数据 库 最 新 抽取 来 的 数据 做 比较 。 实 现 方式 是 在 维度 表 上 建立 一 个 当前 维度 版 本 的 视图 , 用 
于 比较 数据 变化 .这 种 设计 既 可 以 保留 所 有 数据 变化 的 历史 , 又 屏蔽 了 查询 当前 版 本 的 复杂 性 。 
事实 表 需 要 引用 维度 表 的 代理 键 , 而 且 不 一 定 是 引用 当前 版 本 的 代理 键 ,。 比如 有 些 述 到 的 
事实 , 就 必须 找到 事实 发 生 时 的 维度 版 本 。 因 此 一 个 维度 的 所 有 版 本 区 间 应 该 构成 一 个 连续 且 
互 斥 时 间 范 围 , 每 个 事实 数据 都 能 对 应 维度 的 唯一 版 本 。 实现 方式 是 在 维度 表 上 建立 一 个 维度 
历史 版 本 的 视图 , 在 这 个 视图 中 增加 版 本 过 期 日 期 导出 列 。 任 何 一 个 版 本 的 有 效 期 是 一 个 “ 左 
闭 右 开 ” 的 区 间 ， 也 就 是 说 该 版 本 包含 生效 日 期 ， 但 不 包含 过 期 日 期 ， 而 是 到 过 期 日 期 的 前 一 
天 为 止 。ETL 粒度 为 每 天 执行 一 次 ， 也 即 一 天 内 的 数据 变化 将 被 忽略 。 

4. 设置 数据 处 理 时 间 窗 口 

对 于 事实 表 ， 我 们 采用 基于 时 间 戳 的 CDC 增 量 装载 模式 ， 时 间 粒 度 为 天 。 因 此 需要 两 个 












































时 间 点 , 分 别 表示 本 次 装载 的 起 始 时 间 点 和 终止 时 间 点 , 这 两 个 时 间 点 定义 了 本 次 处 理 的 时 间 
窗口 ， 即 装载 这 个 时 间 区 间 内 的 数据 。 还 要 说 明 一 点 ,这 个 区 间 是 左 包含 的 ， 就 是 处 理 的 数据 
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包括 起 始 时 间 点 的 ， 但 不 包括 终止 时 间 点 的 。 这 样 设计 的 原因 是 ， 我 们 既 要 处 理 完整 的 数据 ， 
不 能 有 遗漏 , 又 不 能 重复 装载 数据 , 这 就 要 求 时 间 处 理 窗口 既 要 连续 , 又 不 能 存在 重合 的 部 分 。 





创建 维度 表 版 本 视图 


1. 创建 当前 版 本 视图 


-- 切换 到 cas 模式 
set search path=tds; 


-- 建立 客户 维度 当前 视图 
create or replace view v_customer_dim latest as 
select customer_sk, customer_number, customer_name, customer_street_address, 
customer zip code, customer city, customer state, version, 
effective date 
from (select distinct on (customer number) customer number, customer sk, 
customer name, customer street address, customer zip code, 
customer city, customer state, isdelete, version, effective date 
from customer dim 
order by customer number, customer sk desc) as latest 
where isdelete is false; 


-- 建立 产品 维度 当前 视图 
create or replace view v_product_dim latest as 
select product_sk, product_code, product_name, product_category, version, 
effective date 
from (select distinct on (product_code) product_code, product_sk, 
product name, product category, isdelete, version, effective date 
from product dim 
order by product code, product sk desc) as latest 
where isdelete is false; 


说 明 : 

© ”如 前 所 述 , 创建 维度 表 的 当前 视图 。 这 里 只 为 客户 和 产品 维度 创建 视图 ， 而 订单 维度 
不 需要 当前 版 本 视图 ， 因 为 假设 业务 上 订单 数据 只 能 增加 ,不 能 修改 ,， 所 以 没有 版 本 
变化 。 

€ 使 用 HAWQ 的 DISTINCT ON 语法 去 重 . DISTINCT ON ( expression [, ---] ) 把 记录 根 
据 [，…] 的 值 进行 分 组 ， 分 组 之 后 仅 返 回 每 一 组 的 第 一 行 。 需 要 注意 的 是 ， 如 果 不 指 
X ORDER BY 子 句 ， 返 回 的 第 一 条 的 不 确定 的 。 如 果 使 用 了 ORDER BY 4), AK 
么 [，…] 里 面 的 值 必须 靠近 ORDER BY 子 句 的 最 左边 。 本 例 中 我 们 按 业务 主键 (分别 
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X customer number 和 product code) 分 组 ， 每 组 按 代理 键 (分 别 是 customer sk 和 
product sk) 倒 排序 ， 每 组 第 一 行 即 为 维度 的 当前 版 本 。 


2. 创建 历史 版 本 视图 


-- 切换 到 tds 模式 
set search path=tds; 


-- 建立 客户 维度 历史 视图 ， 增 加 版 本 过 期 日 期 导出 列 

create or replace view v_customer dim his as 

select *, date(lead(effective_date,1,date '2200-01-01') over (partition by 
customer number order by effective date)) expiry date 


from customer dim; 


-- 建立 产品 维度 历史 视图 ， 增 加 版 本 过 期 日 期 导出 列 

create or replace view v_product_dim his as 

select *, date(lead(effective date,l,date '2200-01-01') over (partition by 
product_code order by effective date)) expiry date 


from product_dim; 


说 明 : 


维度 历史 视图 增加 了 版 本 的 过 期 日 期 列 。 

使 用 LEAD 窗口 函数 实现 。 以 业务 主键 ( 分别 是 customer_number 和 product. code ) 
分 区 ,每 个 分 区 内 按 生 效 日 期 排序 。 LEAD 函数 在 一 个 分 区 内 取 到 当前 生效 日 期 的 下 
一 个 日 期 ,该 日 期 即 为 对 应 版 本 的 过 期 日 期 。 如果 是 当前 版 本 ， 下 一 日 期 为 空 ， 则 返 
回 一 个 很 大 的 时 间 值 , 大 到 足以 满足 数据 仓库 整个 生命 周期 的 需要 , 本 示例 设置 的 是 
2200 年 1 月 1 日 。 


创建 时 间 戳 表 


create table rds.cdc_time (last_load date, current_load date); 


insert into rds.cdc_time select current_date - 1, current_date - 1; 


说 明 


本 示例 中 order_dim 维度 表 和 sales order fact 事实 表 使 用 基于 时 间 蕉 的 CDC 装载 模 
式 。 为 此 在 rds 模式 中 建立 一 个 名 为 cde time thti RR, AREA last load 和 
current_load 两 个 字段 。 之 所 以 需要 两 个 字段 ， 是 因为 抽取 到 的 数据 可 能 会 多 于 本 次 
需要 处 理 的 数据 。 比如， 两 点 执行 ETL 过 程 ， 则 零点 到 两 点 这 两 个 小 时 的 数据 不 会 
在 本 次 处 理 。 为 了 确定 这 个 截止 时 间 点 ， 需 要 给 时 间 戳 设 定 一 个 上 限 条 件 ， 即 这 里 的 
current load 字段 值 。 
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€ ”本 示例 的 时 间 料 度 为 每 天 ， 所 以 时 间 戳 只 要 保留 日 期 部 分 即 可 ， 因 此 数据 类 型 选 为 
date。 这 两 个 字段 的 初始 值 是 “初始 加 载 ”执行 日 期 的 前 一 天 。 当 开始 装载 时 ， 
current. load 设置 为 当前 日 期 。 


用 Sqoop 定期 数据 抽取 


用 sqoop 操作 系统 用 户 建立 定期 数据 抽取 脚本 文件 ~/regular_extract.sh， 内 容 如 下 : 


#!/bin/bash 


# 全 量 抽取 客户 表 


sqoop import --connect jdbc:mysql://172.16.1.127:3306/source --username dwtest 


--password 123456 --table customer --target-dir /data/ext/customer 


--delete-target-dir --compress 


* 全 量 抽取 产品 表 


sqoop import --connect jdbc:mysql://172.16.1.127:3306/source --username dwtest 


--password 123456 --table product --target-dir /data/ext/product 


--delete-target-dir --compress 


* 增 量 抽取 销售 订单 表 


sqoop job --exec myjob_incremental_import 


这 个 文件 与 上 一 章 介绍 的 初始 抽取 的 shell 脚本 基本 相同 ， 只 是 去 掉 了 创建 Sqoop 作业 的 


命令 。 每 次 装载 后 ， 都 会 将 已 经 导入 的 最 大 订单 号 赋予 增 量 抽取 作业 的 last-value。 
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将 文件 修改 为 可 执行 模式 : 


chmod 755 ~/regular_extract.sh 


建立 定期 装载 HAWQ 函数 


create or replace function fn_regular_load () 
returns void as $$ 
declare 
-- WE scd 的 生效 时 间 
v_cur_date date := current_date; 
v_pre_date date := current_date - 1; 
v_last_load date; 
begin 


-- 分 析 外 部 表 

analyze ext.customer; 
analyze ext.product; 
analyze ext.sales order; 


-- 将 外 部 表 数 据 装载 到 原始 数据 表 
truncate table rds.customer; 
truncate table rds.product; 


insert into rds.customer select * from ext.customer; 
insert into rds.product select * from ext.product; 


insert into rds.sales order select * from ext.sales order; 


-- 分 析 ras 模式 的 表 
analyze rds.customer; 
analyze rds.product; 


analyze rds.sales_order; 


-- 设置 cdc 的 上 限时 间 

select last_load into v_last_load from rds.cdc_time; 
truncate table rds.cdc_time; 

insert into rds.cdc time select v last load, v cur date; 


-- 装载 客户 维度 
insert into tds.customer_dim 
(customer_number, customer_name, customer_street_address, 
customer zip code, customer city, customer state, isdelete, 
version, effective date) 
select case flag when 'D' then a customer number else b customer number 
end customer number, 
case flag when 'D' then a customer name else b customer name 
end customer name, 
case flag when 'D' then a customer street address 
else b customer street address 
end customer street address, 
case flag when 'D' then a customer zip code else b customer zip code 
end customer zip code, 
case flag when 'D' then a customer city else b customer city 
end customer city, 
case flag when 'D' then a customer state else b customer state 
end customer state, 
case flag when 'D' then true else false 
end isdelete, 
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case flag when 'D' then a_version when 'I' then 1 else a_version + 1 
end v, 
v pre date 
from (select a.customer number a customer number, 
a.customer name a customer name, 
a.customer street address a customer street address, 
a.customer zip code a customer zip code, 
a.customer city a customer city, 
a.customer state a customer state, 
a.version a version, 
b.customer number b customer number, 
b.customer name b customer name, 
b.customer street address b customer street address, 
b.customer zip code b customer zip code, 
b.customer city b customer city, 
b.customer state b customer state, 
case when a.customer number is null then 'I' 
when b.customer number is null then 'D' 
else 'U' 
end flag 
from v customer dim latest a 
full join rds.customer b on a.customer number - b.customer number 
where a.customer number is null -- 新 增 
or b.customer number is null -- 删除 
or (a.customer number = b.customer number 
and not 
(a.customer name = b.customer name 
and a.customer street address - b.customer street address 
and a.customer zip code - b.customer zip code 
and a.customer city = b.customer city 
and a.customer state - b.customer state))) t 
order by coalesce(a customer number, 999999999999), 
b customer number limit 999999999999; 


-- 装载 产品 维度 
insert into tds.product_dim 
(product_code, product_name, product_category, isdelete,version, 
effective date) 

select case flag when 'D' then a product code else b product code 
end product code, 
case flag when 'D' then a product name else b product name 
end product name, 
case flag when 'D' then a product category else b product category 
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end product_category, 
case flag when 'D' then true else false 
end isdelete, 
case flag when 'D' then a version when 'I' then 1 else a version * 1 
end v, 
v pre date 
from (select a.product code a product code, 
a.product name a product name, 
a.product category a product category, 
a.version a version, 
b.product code b product code, 
b.product name b product name, 
b.product category b product category, 
case when a.product code is null then 'I' 
when b.product code is null then 'D' 
else 'U' 
end flag 
from v product dim latest a 
full join rds.product b on a.product code - b.product code 
where a.product code is null -- 新 增 
or b.product code is null -- 删除 
or (a.product code - b.product code 
and not 
(a.product name - b.product name 
and a.product category - b.product category))) t 
order by coalesce(a product code, 999999999999), b product code 
limit 999999999999; 


-- X order 维度 
insert into order dim (order number, version, effective date) 
select t.order number, t.v, t.effective date 
from (select order number, 1 v, order date effective date 
from rds.sales order, rds.cdc time 
where entry date >= last load and entry date « current load) t; 


-- 装载 销售 订单 事实 表 

insert into sales order fact 

Select order sk, customer sk, product sk, date sk, year * 100 + month, 
order amount 

from rds.sales order a, 

order dim b, 
v customer dim his c, 
v product dim his d, 
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date_dim e, 
rds.cdc time f 


where a.order number = b.order number 


a 
a 
a 


a 


ig 
Hs 


end; 
$$ 


and a.customer number = c.customer number 
a.order date >= c.effective date 
a.order date « c.expiry date 
and a.product code - d.product code 
a.order date »- d.effective date 
a.order date « d.expiry date 
and date(a.order date) - e.date 
and a.entry date »- f.last load and a.entry date « f.current load; 


- 分 析 tds 模式 的 表 
nalyze customer_dim; 
nalyze product_dim; 
nalyze order dim; 


nalyze sales order fact; 


- SONA last load 字段 
runcate table rds.cdc time; 


nsert into rds.cdc time select v cur date, v cur date; 


language plpgsql; 


说 明 : 


该 函数 分 成 两 大 部 分 ， 一 是 装载 RDS 模式 的 表 ， 二 是 处 理 TDS 的 表 。 

同 初始 装载 一 样 ，RDS 模式 表 的 数据 来 自从 EXT 模式 的 外 部 表 ，rds.customer 和 
rds.product 全 量 装载 ，rds.sales_order 增 量 装载 。 

脚本 中 设置 三 个 变量 ，v_last_load 和 v cur date 分 别 赋予 起 始 日 期 、 终 止 日 期 ， 并 且 
将 时 间 戳 表 rds.cde_time 的 last load 和 current load 字段 分 别 设置 为 起 始 日 期 和 终止 
日 期 。v_pre_date 表示 版 本 过 期 日 期 。 

维度 表 数 据 可 能 是 新 增 、 修 改 或 删除 。 这 里 用 FULL JOIN 连接 原始 数据 表 与 维度 当 
前 版 本 视图 ， 统 一 处 理 这 三 种 情况 。 外 查询 中 使 用 CASE 语句 判断 属于 哪 种 情况 ， 
分 别 取得 不 同 的 字段 值 。 

为 了 保证 数据 插入 维度 表 时 ,代理 键 与 业务 主键 保持 相同 的 顺序 , 必须 使 用 “order by 
coalesce(a product code, 999999999999), b. product code limit 999999999999;” 类 似 的 
语句 。 

订单 维度 增 量 装载 ， 没 有 历史 版 本 问题 。 

装载 事实 表 时 连接 维度 历史 视图 , 引用 事实 数据 所 对 应 的 维度 代理 键 . 该 代理 键 可 以 


通过 维度 版 本 的 生效 日 期 、 过 期 日 期 区 间 唯 一 确定 。 
@ 装载 数据 后 ， 执 行 查询 前 ， 分 析 表 以 提高 查询 性 能 。 
e 数据 装载 完成 后 ， 更 新 数据 处 理 时 间 窗 口 。 


建立 定期 ETL 脚本 


用 root 操作 系统 用 户 建 立定 期 ETL 脚本 文件 ~/regular_etl.sh， 内 容 如 下 : 
#!/bin/bash 


# 外 部 表 只 保存 销售 订单 增 量 数据 


su - hdfs -c 'hdfs dfs -rm -r /data/ext/sales_order/*' 


* 使 用 sqoop 用 户 执行 定期 抽取 脚本 


su - sqoop -c '~/regular_extract.sh' 


* 使 用 gpadmin 用 户 执行 定期 装载 函数 
su - gpadmin -c 'export PGPASSWORD=123456;psql -U dwtest -d dw -h hdp3 -c "set 


search path-tds;select fn regular load ();"' 
该 文件 的 作用 与 初始 ETL 的 shell 脚本 基本 相同 ， 为 定期 ETL 提供 统一 的 执行 入 口 。 
将 文件 修改 为 可 执行 模式 : 


chmod 755 ~/regular_etl.sh 


测试 


14.7.1 准备 测试 数据 
在 hdp4 上 的 MySQL 数据 库 中 执行 下 面 的 SQL 脚本 ， 准 备 源 数 据 库 中 的 客户 、 产 品 和 销 
售 订单 测试 数据 。 


use source; 


/[*** 

客户 数据 的 改变 如 下 : 

客户 6 的 街道 号 改 为 7777 ritter rd. (原来 是 7070 ritter rd) 

客户 7 的 姓名 改 为 distinguished agencies. (原来 是 distinguished partners) 
新 增 第 八 个 客户 。 
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***/ 

update customer set customer street address = '7777 ritter rd.' 

where customer number - 6 ; 

update customer set customer name - 'distinguished agencies' 

where customer number = 7 ; 

insert into customer (customer name, customer street address, 
customer zip code, customer city, customer state) 

values ('subsidiaries', '10000 wetline blvd.', 17055, 'pittsburgh', 'pa') ; 


/[*** 

产品 数据 的 改变 如 下 : 

产品 3 的 名 称 改 为 flat panel. (原来 是 1cd panel) 
新 增 第 四 个 产品 。 


***/ 
update product set product_name = 'flat panel' where product_code = 3 ; 
insert into product (product name, product category) 


values ('keyboard', 'peripheral'); 


[kee 

新 增订 单 日 期 为 2017 年 5 月 4 日 的 16 条 订单 。 

***/ 

set Gstart date := unix timestamp('2017-05-04'); 

set Gend date := unix timestamp ('2017-05-05'); 

drop table if exists temp sales order data; 

create table temp sales order data as select * from sales order where 1-0; 


set Gorder date := from unixtime(Gstart date + rand() * (Gend date - 
(start date)); 

set @amount := floor(1000 + rand() * 9000); 

insert into temp sales order data values (101, 1, 1, (order date, @order date, 
Gamount) ; 


… 共 插 入 16 条 数据 … 


insert into sales_order 
select null,customer_number,product_code,order date,entry date,order amount 
from temp sales order data order by order date; 


commit ; 


14.7.2 ”执行 定期 ETL 脚本 
H root 用 户 执 行 定期 ETL 脚本 。 
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^/regular etl.sh 


14.7.3 ”确认 ETL 过 程 正确 执行 
CD 查询 客户 维度 当前 视图 


select customer sk c sk, customer number c num, customer name c name, 
customer street address c str add, version v, effective date eff date 
from v customer dim latest 


order by customer number; 


查询 结果 如 下 ， 可 以 看 到 视图 包含 所 有 客户 的 最 新 信息 。 客 户 6、7、8 这 三 条 记录 的 生效 
日 期 为 2017-05-04。 


c Sk | c num | c name | c str add I v | eff date 

------ 4-------4------------------------4-------------------4---4----------- 
T- | 1 | really large customers | 7500 louise dr. | 1 | 2016-03-01 
22] 2 | small stores | 2500 woodland st. | 1 | 2016-03-01 
3 | 3 | medium retailers | 1111 ritter rd. | 1 | 2016-03-01 
4 | 4 | good companies | 9500 scott st. | 1 | 2016-03-01 
5 | 5 | wonderful shops | 3333 rossmoyne rd. | 1 | 2016-03-01 
8 | 6 | loyal clients | 7777 ritter rd. | 2 | 2017-05-04 
9x 7 | distinguished agencies | 9999 scott st. | 2 | 2017-05-04 
10 1 8 | subsidiaries 110000 wetline blvd. | 1 | 2017-05-04 

(8 rows) 


(2) 查询 客户 维度 历史 视图 
select customer sk c sk, customer number c num, customer name c name, 
customer street address c str add, version v, effective date eff date, 
expiry date exp date, isdelete isdel 
from v customer dim his 


order by customer number, version; 


查询 结果 如 下 ， 可 以 看 到 视图 包含 所 有 客户 的 历史 版 本 ， 以 及 版 本 对 应 的 时 间 段 ， 当 前 版 
本 的 过 期 日 期 为 2200-01-01 。 客 户 6、7 因为 修改 了 信息 ， 具 有 两 个 版 本 ， 老 版 本 的 过 期 日 
期 和 新 版 本 的 生效 日 期 均 为 2017-05-04。 








c_sk | cnum | c name | c_str_add I v | eff date | exp date | isdel 

-----+-------+----------------- -+------------- --——R--—---------— 4-- -—------- 
i || 1 | really large customers | 7500 louise dr. | 1 | 2016-03-01 | 2200-01-01 | f 
zu 2 | small stores | 2500 woodland st. | 1 | 2016-03-01 | 2200-01-01 | f 
3 3 | medium retailers | 1111 ritter rd. | 1 | 2016-03-01 | 2200-01-01 | f 
4 | 4 | good companies | 9500 scott st. | 1 | 2016-03-01 | 2200-01-01 | f 
51 5 | wonderful shops | 3333 rossmoyne rd. | 1 | 2016-03-01 | 2200-01-01 | f 
61 6 | loyal clients | 7070 ritter rd. | 1] 2016-03-01 | 2017-05-04 | f 
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8 1 6 | loyal clients | 7777 ritter rd. | 2 | 2017-05-04 | 2200-01-01 | £ 


al 7 | distinguished partners | 9999 scott st. | 1 | 2016-03-01 | 2017-05-04 | f 

9l 7 | distinguished agencies | 9999 scott st. | 2 | 2017-05-04 | 2200-01-01 | f 

10 | 8 | subsidiaries | 10000 wetline blvd. | 1 | 2017-05-04 | 2200-01-01 | f 
(10 rows) 


G) 查询 产品 维度 当前 视图 

select product sk, product code, product name, version, effective date 
from v product dim latest 

order by product code; 


查询 结果 如 下 : 
product_sk | product_code | product_name | version | effective_date 
a a ee el Emm Eumene NS NS OS 
aL | 1! | hard disk drive | T | 2016-03-01 
2 | 2 | floppy drive | fl! | 2016-03-01 
4 | 3 | flat panel 1 2 | 2017-05-04 
DII 4 | keyboard 1 1 20L7=05=04 
(4 rows) 


(4) 查询 产品 维度 历史 视图 
select product_sk p_sk, product_code p_code, product_name p_name, version v, 
effective date eff date, expiry date exp date 
from v product dim his 
order by product code, version; 


查询 结果 如 下 : 


p_sk | p_code | p name lv I eff date || esp date 








cmm 





at | 1 | hard disk drive | 1 | 2016-03-01 | 2200-01-01 

g | 2 | floppy drive | 1 | 2016-03-01 | 2200-01-01 

3l 3 | led panel 2 102016=03=01 | 2017=05=04 

4 | 3 | flat panel | 2 {| 2017-05-04 | 2200=01=01 

sy | 4 | keyboard | 1 | 2017-05-04 | 2200-01-01 
(5 rows) 











(5) 查询 订单 维度 表 和 事实 表 记 录 数 ， 结 果 都 是 16， 说 明 新 装载 了 16 条 订单 记录 
select count (*) from order dim; 
select count(*) from sales order fact; 


(6) 查询 事实 表 数 据 


select * from sales order fact 





where order sk > 100 
order by order_sk; 


查询 结果 如 下 。 可 以 看 到 ，customer sk 没有 6. 7, MAE 8. 9, 10 为 新 增 ; product sk 用 
4 代替 3，5 为 新 增 。 








order sk | customer sk | product sk | order date sk | year month | order amount 

---------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 
101 || 4 | 5 | 6334 | 201705 1683.00 
102 | 4 | 5 | 6334 | 201705 4917.00 
103 1 8 | 2 | 6334 | 201705 3516.00 
104 | 5 | m | 6334 | 201705 4666.00 
105 i 8 | 2 | 6334 | 201705 8396.00 
106 | 2 | 2 | 6334 | 201705 8306.00 
107 | 9 | 4 | 6334 | 201705 9539.00 
108 | 2 | 2 | 6334 | 201705 2942.00 
amer || 10 | 5 | 6334 | 201705 6682.00 
no | 1 | il | 6334 | 201705 5456.00 
ine | 9 | 4 | 6334 | 201705 7289.00 
TET 3 | 4 | 6334 | 201705 6863.00 
as - qi 5 | 2 | 6334 | 201705 7613.00 
114 | 3 | 4 | 6334 | 201705 9707.00 
rS | 1 | al | 6334 | 201705 2449.00 
116 | 10 | 5 | 6334 | 201705 7844.00 

(16 rows) 


(7) 查询 时 间 窗 口 表 


select * from rds.cdc time; 
查询 结果 如 下 ， 可 以 看 到 时 间 窗 口 已 经 更 新 。 


last load | current load 
-2----------- 4-------------- 


2017-05-05 | 2017-05-05 
(1 row) 


动态 分 区 滚动 


rds.sales_order fil tds.sales_order_fact 都 是 按 月 做 的 范围 分 区 , 需要 进一步 设计 滚动 分 区 维 
护 策略 。 通 过 维护 一 个 数据 滚动 窗口 ， 删 除 老 分 区 ,添加 新 分 区 ， 将 老 分 区 的 数据 迁移 到 数据 
仓库 以 外 的 次 级 存储 ， 以 节省 系统 开销 。 下 面 的 HAWQ 函数 按照 转 储 最 老 分 区 数据 、 删 除 最 
老 分 区 数据 、 建 立新 分 区 的 步骤 动态 滚动 分 区 。 

-- 创建 动态 滚动 分 区 的 函数 


create or replace function tds.fn_rolling partition(p_year_month_start date) 
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returns int as $body$ 

declare 

v_min_partitiontablename name; 

v year month end date := p year month start + interval '1 month'; 
v year month start int int := extract(year from p year month start) * 100 
* extract(month from p year month start); 
v year month end int int :- extract(year from v year month end) * 100 
* extract(month from v year month end); 

Sqlstring varchar(1000); 
begin 

-- AbH rds.sales order 

-- 转 储 最 早 一 个 月 的 数据 ， 

select partitiontablename into v min partitiontablename 

from pg partitions 
where tablename-'sales order' and partitionrank - 1; 


sqlstring = 'copy (select * from ' || v min partitiontablename || ') to 
''/home/gpadmin/sales order ' || cast(v year month start int as varchar) || 
"txt"! with delimiter ''|'';'; 

execute sqlstring; 


-- raise notice '$', sqlstring; 


-- 删除 最 早 月 份 对 应 的 分 区 
Sqlstring := 'alter table sales order drop partition for (rank(1));'; 
execute sqlstring; 


-- 增加 下 一 个 月 份 的 新 分 区 

sqlstring := 'alter table sales order add partition start (date '''|| 
p year month start ||''') inclusive end (date '''||v year month end ||''') 
exclusive;'; 

execute sqlstring; 


-- raise notice '$', sqlstring; 


-- Ab tds.sales order fact 

-- 转 储 最 早 一 个 月 的 数据 ， 

select partitiontablename into v min partitiontablename 
from pg_partitions 

where tablename-'sales order fact' and partitionrank = 1; 


Sqlstring = 'copy (select * from ' || v min partitiontablename || ') to 


''/home/gpadmin/sales order fact ' || cast(v year month start int as varchar) || 
KEXEN with delimiter NAE 
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execute sqlstring; 


-- raise notice '%', sqlstring; 


-- 删除 最 早 月 份 对 应 的 分 区 
sqlstring := 'alter table sales order fact drop partition for (rank(1));'; 


execute sqlstring; 


-- 增加 下 一 个 月 份 的 新 分 区 

sqlstring := 'alter table sales order fact add partition start 
('IIcast(v year month start int as varchar)||') inclusive end 
('IIcast(v year month end int as varchar)||') exclusive;'; 

execute sqlstring; 


-- raise notice '$', sqlstring; 


-- 正常 返回 1 


return 1; 


-- 异常 返回 0 

exception when others then 
raise exception '%: %', sqlstate, sqlerrm; 
return 0; 

end 

$body$ language plpgsql; 


将 执行 该 函数 的 psal 命令 行 放 到 cron 中 自动 执行 。 下 面 的 例子 表示 每 月 1 号 2 点 执行 分 
区 滚动 操作 。 假 设 数据 仓库 中 只 保留 最 近 一 年 的 销售 数据 。 
0 2 1 * * psql -d dw -c "set search path-rds,tds; select 


fn rolling partition(date(date trunc('month',current date) + interval '1 
month'));" > rolling partition.log 2>61 


准 实时 数据 抽取 


前 面 的 ETL 过 程 中 都 使 用 Sqoop 从 MySQL 数据 库 增 量 抽取 数据 到 HDFS, 然后 用 HAWQ 
的 外 部 表 进 行 访 问 。 这 种 方式 只 需要 很 少 的 配置 即 可 完成 数据 抽取 任务 ,但 缺点 同样 明显 , 那 
就 是 实时 性 。Sqoop 使 用 MapReduce 读 写 数据 ， 而 MapReduce 是 为 了 批 处 理 场 景 设计 的 ， 目 
标 是 大 吞吐 量 ， 并 不 太 关心 低 延 时 间 题 。 就 像 示 例 中 所 做 的 ， 每 天 定时 增 量 抽取 数据 一 次 。 

Flume 是 一 个 海量 日 志 采 集 、 聚 合 和 传输 的 系统 , 支持 在 日 志 系统 中 定制 各 类 数据 发 送 方 ， 
用 于 收集 数据 。 同 时 ，Flume 提供 对 数据 进行 简单 处 理 , 并 写 到 各 种 数据 接收 方 的 能 力 。Flume 
以 流 方式 处 理 数据 ， 可 作为 代理 持续 运行 。 当 新 的 数据 可 用 时 ，Flume 能 够 立即 获取 数据 并 输 
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出 至 目标 ， 这 样 就 可 以 在 很 大 程度 上 解决 实时 性 问题 。Flume 最 初 只 是 一 个 日 志 收 集 器 , 但 随 
着 flume-ng-sql-source 插件 的 出 现 ， 使 得 Flume 从 关系 数据 库 采 集 数据 成 为 可 能 。 下 面 简单 介 
绍 Flume， 并 详细 说 明 如 何 配置 Flume 将 MySQL 表 数 据 准 实时 抽取 到 HDFS。 


1. Flume 简介 


Flume 是 分 布 式 的 日 志 收 集 系统 ， 它 将 各 个 服务 器 中 的 数据 收集 起 来 并 发 送 到 指定 的 目 
标 ， 比 如 说 送 到 HDFS。 简 单 来 说 Flume 就 是 一 个 收集 日 志 的 工具 。 


(1) Event 的 概念 

Flume 的 核心 功能 是 把 数据 从 源 (source) 收集 起 来 ， 再 将 收集 到 的 数据 送 到 指定 的 目的 
地 (sink) 。 为 了 保证 输送 的 过 程 一 定 成 功 , 在 送 到 目的 地 (sink) 之 前 , 会 先 缓存 数据 (channel) , 
待 数 据 真 正 到 达 目的 地 (sink) Ja, Flume 再 删除 自己 缓存 的 数据 。 

在 整个 数据 的 传输 过 程 中 ， 流 动 的 是 event， 即 事务 保证 是 在 event 级 别 进行 的 。 那 么 什 
么 是 event WE? Event 将 传输 的 数据 进行 封装 ， 是 Flume 传输 数据 的 基本 单位 ， 如 果 是 文本 文 
件 , 通常 一 个 event 就 是 一 行 记录 。Event 也 是 事务 的 基本 单位 。Event 从 source, 流向 channel， 
再 到 sink， 本 身 为 一 个 字 节 数组 ， 并 可 携带 headers〈 头 信息 ) 信息 。Event 代表 着 一 个 数据 的 
最 小 完整 单元 ， 从 外 部 数据 源 来 ， 向 外 部 目的 地 去 。 


(2) Flume 架构 
Flume 架构 如 图 14-1 所 示 。 








图 14-1 Flume 架构 


图 中 的 Agent 本 身 是 一 个 Java 进程 ， 运 行 在 日 志 收 集 节点 ， 也 就 是 Flume 服务 器 节点 。 
Agent 里 面包 含 三 个 核心 的 组 件 : source. channel 和 sink， 类 似 生产 者 、 仓 库 、 消 费 者 的 架构 。 


€ source: source 组 件 是 专门 用 来 收集 数据 的 ， 可 以 处 理 各 种 类 型 、 各 种 格式 的 日 志 数 
据 , 包括 avro. thrift, exec. jms. spooling directory, netcat、 sequence generator. syslog. 
http. legacy. BE X. 

€ channel: source 组 件 把 数据 收集 以 后 , 临时 存放 在 channel 中 , 即 channel 组 件 在 agent 
中 是 专门 用 来 存放 临时 数据 的 ， 对 采集 到 的 数据 进行 简单 的 缓存， 可 以 存放 在 
memory. jdbc. file 等 等 。 

€ sink: sink 组 件 是 用 于 把 数据 发 送 到 目的 地 的 组 件 , 目的 地 包括 HDFS. logger. Avro. 
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Thrift. ipc, file. null. HBase. Solr, £x X. 


(3) Flume 的 运行 机 制 
Flume 的 核心 就 是 agent， 这 个 agent 对 外 有 两 个 进行 交互 的 地 方 , 一 个 是 接受 数据 输入 的 
source， 一 个 是 数据 输出 的 sink，sink 负责 将 数据 发 送 到 外 部 指定 的 目的 地 。source 接收 到 数 
据 之 后 ， 将 数据 发 送 给 channel, chanel 作为 一 个 数据 缓冲 区 会 临时 存放 这 些 数据 ， 随 后 sink 
会 将 channel 中 的 数据 发 送 到 指定 的 地 方 ， 例 如 HDFS 等 。 注 意 ， 只 有 在 sink 将 channel 中 的 
数据 成 功 发 送出 去 之 后 ，channel 才 会 将 临时 数据 进行 删除 ， 这 种 机 制 保 证 了 数据 传输 的 可 靠 
性 与 安全 性 。 
2. 配置 与 测试 
我 们 的 HDP 安装 中 包含 Flume， 只 要 配置 Flume 服务 即 可 。 
(1) 建立 MySQL 测试 表 并 添加 数据 


use test; 


create table wlslog 

(id int not null, 
time stamp varchar(40), 
category  varchar(40), 


type varchar(40), 
servername varchar(40), 
code varchar(40), 
msg varchar(40), 


primary key ( id ) ); 


insert into wlslog(id,time stamp, category, type, servername, code,msg) 
values (1, 'apr-8-2014-7:06:16-pm-pdt', 'notice', 'weblogicserver', 'adminserver',' 
bea-000365','server state changed to standby'); 

insert into wlslog(id,time_stamp, category, type, servername, code,msg) 
values (2, 'apr-8-2014-7:06:17-pm-pdt', 'notice', 'weblogicserver','adminserver',' 
bea-000365','server state changed to starting'); 

insert into wlslog(id,time stamp,category,type,servername,code,msg) 
values (3, 'apr-8-2014-7:06:18-pm-pdt', 'notice', 'weblogicserver', 'adminserver'," 
bea-000365','server state changed to admin'); 

insert into wlslog(id,time_stamp, category, type, servername, code,msg) 
values (4, 'apr-8-2014-7:06:19-pm-pdt', 'notice', 'weblogicserver', 'adminserver',' 
bea-000365','server state changed to resuming'); 

insert into wlslog(id,time_stamp, category, type, servername, code,msg) 
values (5, 'apr-8-2014-7:06:20-pm-pdt', 'notice', 'weblogicserver', 'adminserver',' 
bea-000361', "started weblogic adminserver'); 

insert into wlslog(id,time_stamp, category, type, servername, code,msg) 


311 


values (6, 'apr-8-2014-7:06:21-pm-pdt', 'notice', 'weblogicserver', 'adminserver',' 
bea-000365','server state changed to running'); 

insert into wlslog(id,time_stamp, category, type, servername, code,msg) 
values (7, 'apr-8-2014-7:06:22-pm-pdt', 'notice', 'weblogicserver','adminserver',' 
bea-000360', "server started in running mode'); 

commit; 


(2) 建立 相关 目录 与 文件 
创建 本 地 状态 文件 : 


mkdir -p /var/lib/flume 

cd /var/lib/flume 

touch sql-source.status 
chmod -R 777 /var/lib/flume 


建立 HDFS A bs Hose: 


hdfs dfs -mkdir -p /flume/mysql 
hdfs dfs -chmod -R 777 /flume/mysql 


(3) VER JAR 包 


从 http://book2s.com/java/jar/f/flume-ng-sql-source/download-flume-ng-sql-source-1.3.7.html 
FX flume-ng-sql-source-1.3.7.jar 文件 ， 并 复制 到 Flume FE A ak. 


cp flume-ng-sql-source-1.3.7.jar /usr/hdp/current/flume-server/lib/ 
将 MySQL JDBC 驱动 JAR 包 也 复制 到 Flume 库 目录 。 


cp mysql-connector-java-5.1.17.jar 


/usr/hdp/current/flume-server/lib/mysql-connector-java.jar 
(4) 建立 HAWQ 外 部 表 
create external table ext_wlslog 
(id int, 
time stamp varchar (40), 
category varchar(40), 


type varchar (40), 
servername varchar (40), 
code varchar (40), 
msg varchar (40) 


) location ('pxf://mycluster/flume/mysql?profile-hdfstextmulti') format 'csv' 
(quote-e'"'); 


(5) 配置 Flume 


在 Ambari 一 Flume 一 Configs — flume.conf 中 配置 如 下 属性 : 
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agent.channels.chl.type = memory 

agent .sources.sql-source.channels = chl 
agent.channels = chl 

agent.sinks - HDFS 


agent.sources - sql-source 

agent.sources.sql-source.type = org.keedio.flume.source.SQLSource 

agent.sources.sql-source.connection.url - 
jdbc:mysql://172.16.1.127:3306/test 

agent.sources.sql-source.user = root 

agent.sources.sql-source.password = 123456 

agent.sources.sql-source.table = wlslog 


agent .sources.sql-source.columns.to.select = * 


agent.sources.sql-source.incremental.column.name = id 
agent .sources.sql-source.incremental.value = 0 

agent .sources.sql-source.run.query.delay=5000 
agent.sources.sql-source.status.file.path = /var/lib/flume 


agent .sources.sql-source.status.file.name = sql-source.status 


agent.sinks.HDFS.channel = chl 

agent.sinks.HDFS.type = hdfs 

agent.sinks.HDFS.hdfs.path = hdfs://mycluster/flume/mysql 
agent.sinks.HDFS.hdfs.fileType = DataStream 
agent.sinks.HDFS.hdfs.writeFormat = Text 
agent.sinks.HDFS.hdfs.rollSize = 268435456 
agent.sinks.HDFS.hdfs.rollInterval = 0 
agent.sinks.HDFS.hdfs.rollCount = 0 


Flume 在 flume.conf 文件 中 指定 source, channel 和 sink 相关 的 配置 , 各 属性 描述 如 表 14-3 
所 示 。 


表 14-3 Flume 配置 文件 属性 





属性 描述 


agent.channels.chl.type Agent 的 channel 类 型 





Source 对 应 的 channel 名 称 


agent.sources.sql-source.channels 














agent.channels Channel 名 称 
agent.sinks Sink 名 称 
agent.sources Source 名 称 
agent.sources.sql-source.type Source 类 型 
agent.sources.sgl-source.connection.url 数据 库 URL 
agent.sources.sql-source.user 数据 库 用 户 名 








agent.sources.sql-source.password 数据 库 密码 
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( 续 表 ) 
































agent.sinks.HDFS.hdfs.rollSize 
agent.sinks.HDFS.hdfs.rollInterval 


agent.sinks. HDFS.hdfs.rollCount 





(6) 运行 Flume 代理 


保存 上 一 步 的 设置 ， 然 


[gU MUNI I | 





属性 描述 
agent.sources.sql-source.table 数据 库 表 名 
agent.sources.sql-source.columns.to.select 查询 的 列 
agent.sources.sql-source.incremental.column.name | 增 量 列 名 
agent.sources.sql-source.incremental.value 增 量 初始 值 
agent.sources.sql-source.run.query.delay 发 起 查询 的 时 间 间 隔 ， 单 位 是 毫秒 
agent.sources.sql-source.status.file.path 状态 文件 路 径 
agent.sources.sql-source.status.file.name 状态 文件 名 称 
agent.sinks. HDFS.channel Sink 对 应 的 channel 名 称 
agent.sinks. HDFS.type Sink 类 型 

agent.sinks. HDFS.hdfs.path Sink 路 径 

agent.sinks. HDFS.hdfs.fileType 流 数据 的 文件 类 型 
agent.sinks.HDFS.hdfs.writeFormat 数据 写 入 格式 


目标 文件 轮转 大 小 ， 单 位 是 字 节 

hdfs sink 间隔 多 长 将 临时 文件 滚动 成 最 终 目标 文件 ， 单 
位 是 秒 ; 如 果 设 置 成 0， 则 表示 不 根据 时 间 来 滚动 文件 
当 events 数据 达到 该 数量 时 候 ， 将 临时 文件 滚动 成 目标 
文件 ， 如 果 设 置 成 0， 则 表示 不 根据 events 数据 来 滚动 
文件 


重启 Flume 服务 ， 如 图 14-2 所 示 。 
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图 14-2 运行 Flume 代理 


a, 状态 文件 已 经 记录 了 最 新 的 id 值 7: 
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{root@hdp4 flume]# 11 
总 用 量 4 


-rw-r--r-- 1 flume hadoop 17 6 月 23 16:20 sql-source.status 
-rwxrwxrwx 1 root root 06H 23 15:35 sql-source.status.bak.1498206038870 
[root@hdp4 flume]# more sql-source.status 


{"LastIndex":"7"} 
[root@hdp4 flume] # 


查看 目标 路 径 ， 生 成 了 一 个 临时 文件 ， 其 中 有 7 条 记录 : 


[root@hdp4 flume]# hdfs dfs -ls /flume/mysql/* 


-rw-r--r-- 3 flume hdfs 


/f£lume/mysql/FlumeData.1498206041064.tmp 
[root@hdp4 flume]# hdfs dfs -cat /flume/mysql/* 
"1", "apr-8-2014-7:06:16-pm-pdt", "notice", "weblogicserver", "adminserver", "be 


a-000365","server state changed to standby” 





829 2017-06-23 16:20 


"2","apr-8-2014-7:06:17-pm-pdt", "notice", "weblogicserver", "adminserver", "be 


a-000365","server state changed to starting" 


"3","apr-8-2014-7:06:18-pm-pdt", "notice", "weblogicserver", "adminserver", "be 


a-000365","server state changed to admin" 


"4", "apr-8-2014-7:06:19-pm-pdt", "notice", "weblogicserver", "adminserver", "be 


a-000365","server state changed to resuming" 


"5", "apr-8-2014-7:06:20-pm-pdt", "notice", "weblogicserver", "adminserver", "be 


a-000361","started weblogic adminserver" 


"6", "apr-8-2014-7:06:21-pm-pdt", "notice", "weblogicserver", "adminserver", "be 


a-000365","server state changed to running" 


"7", "apr-8-2014-7:06:22-pm-pdt", "notice", "weblogicserver", "adminserver", "be 


a-000360","server started in running mode" 
查询 HAWQ 外 部 表 ， 结 果 也 有 全 部 7 条 数据 : 


test=# select id, time stamp, code, msg from 


id time_stamp 


1 apr-8-2014-7:06:16-pm-pdt 
2 apr-8-2014-7:06:17-pm-pdt 
3} apr-8-2014-7:06:18-pm-pdt 
4 apr-8-2014-7:06:19-pm-pdt 
5 apr-8-2014-7:06:20-pm-pdt 
6 apr-8-2014-7:06:21-pm-pdt 
7 apr-8-2014-7:06:22-pm-pdt 
(7 rows) 


至 此 ， 初 始 数据 抽取 已 经 完成 。 





code 


bea-000365 
bea-000365 
bea-000365 
bea-000365 
bea-000361 
bea-000365 
bea-000360 


ext_wlslog; 


| server state changed to standby 
| server state changed to starting 
| server state changed to admin 
| server state changed to resuming 
| started weblogic adminserver 

| server state changed to running 


| server started in running mode 
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(7) 测试 准 实时 增 量 数据 抽取 
在 源 表 中 新 增 id 为 8、9、10 的 三 条 记录 。 


use test; 

insert into wlslog(id,time_stamp, category, type, servername, code,msg) 
values (8, 'apr-8-2014-7:06:22-pm-pdt', 'notice', 'weblogicserver', 'adminserver',' 
bea-000360', 'server started in running mode"); 

insert into wlslog(id,time_stamp, category, type, servername, code,msg) 
values (9, 'apr-8-2014-7:06:22-pm-pdt', 'notice', 'weblogicserver', 'adminserver',' 
bea-000360', 'server started in running mode'); 

insert into wlslog(id,time_stamp, category, type, servername, code,msg) 
values (10, 'apr-8-2014-7:06:22-pm-pdt', 'notice', 'weblogicserver', 'adminserver', 
'bea-000360','server started in running mode'); 


commit; 
5 秒 之 后 查询 HAWQ 外 部 表 , 可 以 看 到 已 经 查询 出 全 部 10 条 数据 , 准 实时 增 量 抽取 成 功 。 


test=# select id, time_stamp, code, msg from ext_wlslog; 


id | time_stamp | code | msg 

-T---4--------------------------- *------------ *----------------------------- 
6 | apr-8-2014-7:06:21-pm-pdt | bea-000365 | server state changed to running 
7 | apr-8-2014-7:06:22-pm-pdt | bea-000360 | server started in running mode 
8 | apr-8-2014-7:06:22-pm-pdt | bea-000360 | server started in running mode 
9 | apr-8-2014-7:06:22-pm-pdt | bea-000360 | server started in running mode 
10 | apr-8-2014-7:06:22-pm-pdt | bea-000360 | server started in running mode 

(10 rows) 

3. 方案 优 缺 点 


利用 Flume 采集 关系 数据 库 表 数 据 最 大 的 优点 是 配置 简单 ， 不 用 编程 。 相 比 
tungsten-replicator 的 复杂 性 ，Flume 只 要 在 flume.conf 文件 中 配置 source, channel 及 sink 的 相 
关 属 性 ， 已 经 没什么 难度 了 。 而 与 现在 很 火 的 Canal 比较 ， 虽 然 不 够 灵活 ， 但 毕竟 一 行 代码 也 
不 用 写 。 再 有 该 方案 采用 普通 SQL 轮 询 方式 实现 ， 具 有 通用 性 ， 适 用 于 所 有 关系 库 数 据 源 。 

这 种 方案 的 缺点 与 其 优点 一 样 突出 ， 主 要 体现 在 以 下 几 方面 。 

e 在 源 库 上 执行 了 查询 ， 具 有 入 侵 性 。 

o ”通过 轮 询 方式 实现 增 量 ， 只 能 做 到 准 实时 ， 而 且 轮 询 间 隔 越 短 ， 对 源 库 的 影响 越 大 。 

@ 只 能 识别 新 增 数据 ， 检 测 不 到 删除 与 更 新 。 

e 要求 源 库 必须 有 用 于 表示 增 量 的 字段 。 

即便 有 诸多 局 限 ，Flume 抽取 关系 库 数 据 的 方案 还 是 有 一 定 的 价值 , 特别 是 在 要 求 快 速 部 
署 、 简 化 编程 ， 又 能 满足 需求 的 应 用 场景 ， 对 传统 的 Sqoop 方式 也 不 失 为 一 种 有 效 的 补充 。 
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14.10 we 


数据 仓库 开始 使 用 后 ， 一 般 都 要 定期 执行 ETL 过 程 ， 为 数据 仓库 提供 新 的 数据 。 时 间 戳 、 
触发 器 、 快 照 和 日 志 是 常见 的 变化 数据 捕获 方法 ,它们 各 有 优 缺 点 ， 销 售 订单 示例 采用 时 间 戳 
CDC 方式 。 本 章 详 述 了 如 何 使 用 Sqoop 和 HAWQ 函数 完成 定期 ETL， 给 出 了 完整 的 实现 和 
测试 代码 。 有 些 应 用 场景 需要 较 高 的 实时 性 ， 我 们 讨论 了 一 种 利用 Flume 将 关系 库 数 据 准 实 
时 抽取 到 HDFS 的 方案 。 虽 然 不 够 完善 ， 但 该 方案 作为 Sqoop 的 补充 ， 还 是 具有 一 定 的 价值 。 
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第 15 & 
< 自动 调度 执行 ETL 作 业 > 


- 旦 数据 仓库 开始 使 用 , 就 需要 不 断 从 源 系 统 给 数据 仓库 提供 新 数据 。 为 了 确保 数据 流 的 
稳定 ， 需 要 使 用 所 在 平台 上 可 用 的 任务 调度 器 来 调度 ETL 定期 自动 执行 。 调 度 模 块 是 ETL 系 
统 必 不 可 少 的 组 成 部 分 , 它 不 但 是 数据 仓库 的 基本 需求 ,也 对 项 目的 成 功 起 着 举足轻重 的 作用 。 
本 章 说 明 如 何 使 用 HDP 中 的 Oozie 和 Falcon 服务 实现 ETL 执行 自动 化 。 


Oozie 简介 


Oozie 是 一 个 管理 Hadoop 作业 、 可 伸缩 、 可 扩展 、 可 靠 的 工作 流 调度 系统 ， 它 内 部 定义 
了 三 种 作业 : 工作 流 作 业 、 协 调 器 作业 和 Bundle 作业 。 工 作 流 作业 是 由 一 系列 动作 构成 的 有 
向 无 环 图 (DAGs) ， 协 调 器 作业 是 按时 间 频 率 周期 性 触发 Oozie 工作 流 的 作业 ，Bundle 管理 
协调 器 作业 。Oozie 支持 的 用 户 作 业 类 型 有 Java map-reduce、 Streaming map-reduce、 Pig. Hive, 
Sqoop 和 Distcp， 及 其 Java 程序 和 shell 脚本 或 命令 等 特定 的 系统 作业 。 
1. 为 什么 使 用 Oozie 
使 用 Oozie 主要 基于 以 下 两 点 原因 : 
€  Hadoop 中 执行 的 任务 有 时 候 需要 把 多 个 MapReduce 作业 连接 到 一 起 执行 , 或 者 需要 
多 个 作业 并 行 处 理 。Oozie 可 以 把 多 个 MapReduce 作业 组 合 到 一 个 逻辑 工作 单元 中 ， 
从 而 完成 更 大 型 的 任务 。 
€ ”从 调度 的 角度 看 ， 如 果 使 用 crontab 的 方式 调用 多 个 工作 流 作业 ， 可 能 需要 编写 大 量 
的 脚本 , 还 要 通过 脚本 来 控制 好 各 个 工作 流 作业 的 执行 时 序 问题 ,不 但 不 好 维护 , 而 
且 监 控 也 不 方便 。 基 于 这 样 的 背景 ，Oozie 提出 了 Coordinator 的 概念 ， 它 能 够 将 每 个 
工作 流 作业 作为 一 个 动作 来 运行 , 相当 于 工作 流 定义 中 的 一 个 执行 节点 ,这样 就 能 名 
将 多 个 工作 流 作业 组 成 一 个 称 为 Coordinator Job 的 作业 , 并 指定 触发 时 间 和 频率 , 还 
可 以 配置 数据 集 、 并 发 数 等 。 
2. Oozie 架构 
Oozie 架构 如 图 15-1 所 示 。 


Oozie — Architecture 





15-1 Oozie 架构 


Oozie 是 一 种 Java Web 应 用 程序 ， 它 运行 在 Java Servlet 容器 ， 即 Tomcat 中 ， 并 使 用 数据 
库 来 存储 以 下 内 容 : CD 工作 流 定义 ; (2) 当前 运行 的 工作 流 实例 ,包括 实例 的 状态 和 变量 。 
Oozie 工作 流 是 放置 在 DAG (有 向 无 环 图 Direct Acyclic Graph) 中 的 一 组 动作 , fll; Hadoop 
的 Map/Reduce 作业 、Pig 作业 等 。 DAG 控制 动作 的 依赖 关系 ,指定 了 动作 执行 的 顺序 。Oozie 
使 用 hPDL 这 种 XML 流程 定义 语言 来 描述 这 个 图 。 

hPDL 是 一 种 很 简洁 的 语言 ， 它 只 会 使 用 少数 流程 控制 节点 和 动作 节点 。 控 制 节点 会 定义 
执行 的 流程 ， 并 包含 工作 流 的 起 点 和 终点 (start、end 和 fail 节点 ) 以 及 控制 工作 流 执行 路 径 
的 机 制 (decision、fork 和 join 节点 ) 。 动 作 节点 是 实际 执行 操作 的 部 分 ， 通 过 它们 工作 流 会 
触发 执行 计算 或 者 处 理 任务 。 

所 有 由 动作 节点 触发 的 计算 和 处 理 任 务 都 不 在 Oozie 中 运行 。 它 们 是 由 Hadoop 的 
MapReduce 框架 执行 的 。 这 种 低 耦 合 的 设计 方法 让 Oozie 可 以 有 效 利 用 Hadoop 的 负载 平衡 、 
灾难 恢复 等 机 制 。 这 些 任 务 主要 是 串 行 执行 的 ， 只 有 文件 系统 动作 例外 ， 它 是 并 行 处 理 的 。 这 
意味 着 对 于 大 多 数 工 作 流 动作 触发 的 计算 或 处 理 任务 类 型 来 说 ,在 工作 流 操 作 转 换 到 工作 流 的 
下 一 个 节点 之 前 都 需要 等 待 ， 直 到 前 面 节点 的 计算 或 处 理 任务 结束 了 之 后 才能 够 继续 。Oozie 
可 以 通过 两 种 不 同 的 方式 来 检测 计算 或 处 理 任 务 是 否 完成 : 回调 与 轮 询 。 当 Oozie 启动 了 计算 
或 处 理 任务 时 , 它 会 为 任务 提供 唯一 的 回调 URL, 然后 任务 会 在 完成 的 时 候 给 这 个 特定 的 URL 
发 送 通知 。 在 任务 无 法 触发 回调 URL 的 情况 下 〈 可 能 是 因为 任何 原因 ， 比 方 说 网 络 闪 断 等 ) ， 
或 者 当 任 务 的 类 型 无 法 在 完成 时 触发 回调 URL 的 时 候 ，Oozie 有 一 种 机 制 ， 可 以 对 计算 或 处 
理 任务 进行 轮 询 ， 从 而 能 够 判断 任务 是 否 完成 。 

Oozie 工作 流 可 以 参数 化 ， 例 如 在 工作 流 定义 中 使 用 像 ${finputDir} 之 类 的 变量 。 提 交工 作 
流 操作 时 ， 我 们 必须 提供 参数 值 。 如 果 经 过 合适 的 参数 化 ， 比 如 使 用 不 同 的 输出 目录 ， 那 么 多 
个 同样 的 工作 流 操作 可 以 并 发 执行 。 

- 些 工 作 流 是 根据 需要 触发 的 , 但 是 大 多 数 情 况 下 , 我 们 有 必要 基于 一 定 的 时 间 段 、 数 据 
可 用 性 或 外 部 事件 来 运行 它们 。Oozie 协调 系统 (Coordinator system) 让 用 户 可 以 基于 这 些 参 
数 来 定义 工作 流 执行 计划 。Oozie 协调 程序 让 我 们 可 以 用 谓词 的 方式 对 工作 流 执行 触发 器 进行 
建 模 ,谓词 可 以 是 时 间 条 件 、 数 据 条 件 、 内 部 事件 或 外 部 事件 。 工 作 流 作业 会 在 谓词 得 到 满足 
的 时 候 启 动 。 不 难看 出 ， 这 里 的 谓词 ， 其 作用 和 SQL 语句 的 WHERE 子 句 中 的 谓词 类 似 ， 本 
质 上 都 是 在 满足 某 些 条 件 时 触发 某 种 事件 。 
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有 时 , 我 们 还 需要 连接 定时 运行 但 时 间 间 隔 不 同 的 工作 流 操作 ,多 个 以 不 同 频 率 运行 的 工 
作 流 的 输出 会 成 为 下 一 个 工作 流 的 输入 。 把 这 些 工 作 流 连接 在 一 起 , 会 让 系统 把 它 作为 数据 应 
用 的 管道 来 引用 。Oozie 协调 程序 支持 创建 这 样 的 数据 应 用 管道 。 


15.2 建立 工作 流 前 的 准备 


我 们 的 定期 ETL 需要 使 用 Oozie 中 的 FS、Sqoop 和 SSH 三 种 动作 ， 其 中 增 量 数据 抽取 要 
用 到 Sqoop jobo HF Oozie 在 执行 这 些 动作 时 存在 一 些 特殊 要 求 ， 因 此 在 定义 工作 流 前 先 要 
进行 适当 的 配置 。 

1. 启动 Oozie 服务 

示例 实验 环境 使 用 的 HDP2.5.0， 在 安装 之 时 就 已 经 配置 并 启动 了 Oozie 服务 。 可 以 在 
Ambari Web 控制 台中 交互 式 配 置 、 启 动 、 停 止 、 重 启 Oozie 服务 。 

2. 配置 Sqoop 的 metastore 

默认 时 ，Sqoop metastore 自动 连接 存储 在 ~/.sqoop/. 目 录 下 的 本 地 嵌入 式 数 据 库 。 然 而 要 在 
Oozie 中 执行 Sqoop job， 需 要 Sqoop 使 用 共享 的 元 数据 存储 ， 和 否则 会 报 类 似 如 下 的 错误 : 

ERROR org.apache.sqoop.metastore.hsqldb.HsqldbJobStorage - Cannot restore job 

本 例 中 我 们 使 用 hdp2 上 的 MySQL 数据库 存储 Sqoop 元 数据 ， 下 面 是 配置 步骤 。 

(1) 记录 当前 Sqoop 作业 的 last.value 值 ， 该 值 在 后 面 重建 Sqoop 作业 时 会 用 到 。 


last_value="sqoop job --show myjob incremental import | grep 
incremental.last.value | awk '(print $3)'^ 


(2) 在 MySQL 中 创建 Sqoop 的 元 数据 存储 数据 库 。 


create database sqoop; 

create user 'sqoop'@'hdp2' identified by 'sqoop'; 
grant all privileges on sqoop.* to 'sqoop'@'hdp2'; 
flush privileges; 


(3) 配置 Sqoop 的 元 数据 存储 参数 。 


在 Ambari 的 Sqoop 一 Configs 一 Custom sqoop-site 中 添加 如 图 15-2 所 示 的 参数 。 
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œ Custom sqoop-site 


sqoop.metastore server. ~/.sqoop. o o 
location 
Sqoop.metastore client jdbc:mysql//hdp2/sqoop o o 


autoconnect url 


sqoop.metastore client sqoop o o 
autoconnect username 


sqoop.metastore client true °° 
enable autoconnect 


sqoop.metastore client true o o 
record.password 


sqoop.metastore client sqoop o o 
autoconnect password 


Add Property 








15-2 Sqoop 元 数据 存储 参数 
各 参数 含义 如 下 : 
sqoop.metastore.server.location: 指定 元 数据 服务 器 位 置 ， 初 始 化 建 表 时 需要 。 
sqoop.metastore.client.autoconnect.url: 客户 端 自动 连接 的 数据 库 的 URL. 
sqoop.metastore.client.autoconnect.username: 连接 数据 库 的 用 户 名 。 
sqoop.metastore.client.enable.autoconnect: 启用 客户 端 自动 连接 数据 库 。 
sqoop.metastore.client.record.password: 在 数据 库 中 保存 密码 ， 不 需要 密码 即 可 执行 
sqoop job 脚本 。 
sqoop.metastore.client.autoconnect.password: 连接 数据 库 的 密码 。 


启 Sqoop 服务 。 


在 Ambari 中 重启 Sqoop 服务 ， 重 启 完成 后 ，MySQL 的 sqoop 库 中 有 了 一 个 名 为 
SQOOP ROOT 的 空 表 。 


(4) 














mysql> show tables; 





1 row in set (0.00 sec) 
(5) 预 装载 SQOOP 表 。 


use sqoop; 
insert into SQOOP_ROOT values (NULL, 'sqoop.hsqldb.job.storage.version', '0'); 
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(6) 创建 初始 表 。 
sqoop job --list 
此 时 并 不 会 返回 13.1.3 中 创建 的 myjob incremental import 作业 ， 因 为 MySQL 中 还 没有 


Sqoop 元 数据 信息 。 该 命令 执行 完成 后 ,MySQL 的 sqoop 库 中 有 了 一 个 名 为 SQOOP_SESSIONS 
WER, ARTIK sqoop job 相关 信息 。 


mysql> show tables; 


4----------------- * 
| Tables in sqoop | 
4----------------- * 
| SQOOP ROOT 

| SQOOP SESSIONS 
4----------------- * 


2 rows in set (0.00 sec) 


CD 将 表 的 存储 引擎 修改 为 MYISAM, 因为 每 次 执行 增 量 抽取 后 都 会 更 新 last. value (H, 
如 果 使 用 Innodb 可 能 引起 事务 锁 超 时 错误 。 


alter table SQOOP_ROOT engine=myisam; 
alter table SQOOP_SESSIONS engine=myisam; 


3. 创建 myjob_incremental_import 作业 


sqoop job --create myjob_incremental import \ 

-- import \ 

--connect 
"jdbc:mysql://172.16.1.127:3306/source?usessl-false&user-dwtest&password-12345 
BUN 

--table sales_order \ 

--target-dir /data/ext/sales_order \ 

--compress \ 

--where "entry date < current date()" \ 

--incremental append \ 

--check-column order number \ 
--last-value $last_value 


执行 上 面 的 命令 不 会 报 作 业已 存在 的 错误 ， 因 为 MySQL 中 还 没有 Sqoop 元 数据 ， 已 经 存 
在 的 作业 信息 存储 在 本 地 嵌入 式 数 据 库 中 。 上 面 的 命令 执行 后 ，SQOOP_SESSIONS 表 中 存储 
了 Sqoop job 的 信息 。 
select * from SQOOP_SESSIONS\G 
FOGG 53, row dde 
job name: myjob incremental import 
propname: sqoop.property.set.id 
propval: 0 


propclass: schema 


FOI III III III III 54, row XXI RERO Kok ejje dee 


job name: myjob incremental import 
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propname: sqoop.tool 
propval: import 
propclass: schema 
BRR ERE RRR E 55 OW FER E EERE EERE EERE EERE EERE EEE 
job name: myjob incremental import 
propname: temporary.dirRoot 
propval: _sqoop 
propclass: SqoopOptions 
FOI III IOI III III 56, OW XJOOOOOO III de de d OK KORR ROI A Ik k 


job name: myjob incremental import 
propname: verbose 
propval: false 
propclass: SqoopOptions 
56 rows in set (0.00 sec) 


此 时 再 次 执行 sqoop job -list 命令 ， 可 以 看 到 刚刚 创建 的 Sqoop 作业 。 
sqoop job --list 


Available jobs: 
myjob incremental import 


XT EHI MySQL 作为 Sqoop 元 数据 存储 的 配置 , 可 以 参考 https://community.hortonworks. 
com/articles/55937/using-sqoop-with-mysql-as-metastore.html. 


4. 准备 java-json.jar 文件 
Oozie 中 执行 Sqoop 时 如 果 缺 少 javajsonjar 文件 ， 会 报 类 似 如 下 的 错误 : 


Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SqoopMain], 
main() threw exception, org/json/JSONObject 


我 们 实验 环境 的 HDP2.5.0 安装 中 没有 该 文件 ， 需 要 自行 下 载 ， 然 后 复制 到 相关 目录 。 


cp java-json.jar /usr/hdp/current/sqoop-client/lib/ 
su - hdfs -c 'hdfs dfs -put /usr/hdp/current/sqoop-client/lib/java-json.jar 
/user/oozie/share/lib/lib 20170208131207/sqoop/' 


5. 配置 SSH 免 密码 登录 

实际 的 数据 装载 过 程 是 通过 HAWQ 的 用 户 自 定义 函数 实现 的 ， 自 然 工 作 流 中 要 执行 包含 
psql 命令 行 的 本 地 shell 脚本 文件 。 这 需要 明确 调用 的 shell 使 用 的 是 本 地 的 shell， 可 以 通过 
Oozie 中 的 SSH 动作 指定 本 地 文件 。 在 使 用 SSH 这 个 动作 的 时 候 ， 可 能 会 遇 到 
AUTH FAILED:Not able to perform operation 的 问题 ， 解 决 该 问题 要 对 Oozie 的 服务 器 做 免 密 
码 登 录 处 理 。 

(1) 修改 /etc/passwd 文件 

HDP 默认 运行 Oozie Server 的 用 户 是 oozie, 因此 在 /etc/passwd 中 更 改 oozie 用 户 , 使 得 其 

可 登录 。 我 们 的 环境 配置 为 : 


002ie:x:506:504:00zie user: /home/oozie:/bin/bash 
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(2) 从 oozie 用 户 到 root 用 户 做 免 密 码 登录 
本 示例 是 用 root 操作 系统 用 户 提交 Oozie 任务 的 , 因此 这 里 要 对 从 oozie 用 户 到 root 用 户 
做 免 密 码 登录 。 


su - oozie 








ssh-keygen 
… 一 路 回 车 生成 密 钥 文件 … 
Su 二 


# 将 oozie 的 公 钥 复制 到 root MJ authorized keys 文件 中 


cat /home/oozie/.ssh/id_rsa.pub >> authorized_keys 


完成 以 上 配置 后 ， 在 oozie 用 户 下 可 以 免 密码 ssh root@hdp2. XF Oozie 调用 本 地 shell 
脚本 可 以 参考 http://www.cognoschina.net/Article/121421 。 


用 Oozie 建立 定期 ETL 工作 流 


1. 建立 workflow.xml 文件 
建立 内 容 如 下 的 workflow.xml 文件 : 


<?xml version="1.0" encoding-"UTF-8"?» 
<workflow-app xmlns="uri:oozie:workflow:0.4" name="RegularETL"> 
<start to="hdfsCommands"/> 
<action name="hdfsCommands"> 
«fs» 
«delete path-'$(nameNode)/data/ext/sales order/*'/» 
</fs> 
<ok to="fork-node"/> 
<error to="fail"/> 
</action> 
«fork name="fork-node"> 
<path start qoop-customer" /> 
<path start qoop-product" /> 
<path start="sqoop-sales order" /> 
</fork> 
<action name="sqoop-customer"> 
Xsqoop xmlns-"uri:oozie:sqoop-action:0.2"» 
«job-tracker»$(jobTracker]«/job-tracker» 
<name-node>$ (nameNode ) «/name-node» 
<arg>import</arg> 
<arg>--connect</arg> 
<arg>jdbc:mysql://172.16.1.127:3306/source?useSSL=false</arg> 
<arg>--username</arg> 
<arg>dwtest</arg> 
<arg>--password</arg> 
<arg>123456</arg> 
<arg>--table</arg> 
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<arg>customer</arg> 
<arg>--target-dir</arg> 
<arg>/data/ext/customer</arg> 
<arg>--delete-target-dir</arg> 
<arg>--compress</arg> 
</sqoop> 
<ok to="joining"/> 
<error to="fail"/> 
</action> 
<action name="sqoop-product"> 
<sqoop xmlns-"uri:oozie:sqoop-action:0.2"» 
<job-tracker>$ { jobTracker}</job-tracker> 
«name-node»$ {nameNode}</name-node> 
<arg>import</arg> 
<arg>--connect</arg> 
<arg>jdbc:mysql://172.16.1.127:3306/source?useSSL=false</arg> 
<arg>--username</arg> 
<arg>dwtest</arg> 
<arg>--password</arg> 
<arg>123456</arg> 
<arg>--table</arg> 
<arg>product</arg> 
<arg>--target-dir</arg> 
<arg>/data/ext/product</arg> 
<arg>--delete-target-dir</arg> 
<arg>--compress</arg> 
</sqoop> 
<ok to="joining"/> 
<error to="fail"/> 
</action> 
<action name-"sqoop-sales order"> 
<sqoop xmlns-"uri:oozie:sqoop-action:0.2"» 
<job-tracker>$ { jobTracker}</job-tracker> 
<name-node>$ ( nameNode }</name-node> 
<command>job --meta-connect 
jdbc:mysql://hdp2/sqoop?user-sqoop&password-sqoop --exec 
myjob incremental import«/command» 


«archive»/user/oozie/share/lib/lib 20170208131207/sqoop/java-json.jar#java-jso 
n.jar</archive> 
</sqoop> 
<ok to="joining"/> 
<error to="fail"/> 
</action> 
<join name="joining" to="psql-node"/> 
<action name="psql-node"> 
«ssh xmlns-"uri:oozie:ssh-action:0.1"» 
<host>$ { focusNodeLogin}</host> 
<command>$ {myScript }</command> 
<capture-output/> 
</ssh> 
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<ok to="end"/> 
<error to="fail"/> 
</action> 
<kill name="fail"> 
<message>Sqoop failed, error 
message [${wf:errorMessage (wf: lastErrorNode() ) }]</message> 
</kill> 
<end name="end"/> 
</workflow-app> 


这 个 工作 流 的 DAG 如 图 15-3 所 示 。 







hdfsCommands 





fork-node 




















Sqoop-customer Sqoop-product sqoop-sales order 











psql-node 


图 15-3 Oozie 工作 流 DAG 











EHR XML 文件 使 用 hPDL 的 语法 定义 了 一 个 名 为 RegularETL 的 工作 流 。 该 工作 流 包 
括 10 个 节点， 其 中 有 5 个 控制 节点 和 5 个 动作 节点 。 控 制 节点 有 : 工作 流 的 起 点 start、 终 点 
end、 失 败 处 理 节 点 fail (DAG 图 中 未 显示 ) ， 两 个 执行 路 径 控制 节点 fork-node 和 joining。 动 
作 节 点 有 : 一 个 FS 动作 节点 hdfsCommands 用 于 删除 增 量 抽取 的 HDFS 数据 目录 ; 三 个 并 行 
处 理 的 Sqoop 动作 节点 sqoop-customer、sqoop-product、sqoop-sales_order 用 作 数 据 抽取 ; 


SSH 动作 节点 psql-node 调用 本 地 shell BIAS, PUT HAWQ 数据 装载 。 
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Oozie 的 工作 流 节点 分 为 控制 节点 和 动作 节点 两 类 。 控 制 节点 控制 着 工作 流 的 开始 、 结 束 
和 作业 的 执行 路 径 。 动 作 节 点 触发 计算 或 处 理 任务 的 执行 。 节 点 的 名 字 必 须 符合 
[a-zA-Z][\-_a-zA-Z0-0]* 这 种 正则 表达 式 模式 ， 并 且 不 能 超过 20 个 字符 。 为 了 能 让 Falcon 调用 
Oozie 工作 流 ， 工 作 流 名 称 不 要 带 下 划 线 等 字符 。 

工作 流 定义 中 可 以 使 用 形式 参数 。 当 工作 流 被 Oozie 执行 时 , 所 有 形 参 都 必须 提供 具体 的 
值 。 参 数 定义 使 用 JSP 2.0 的 语法 ， 参 数 不 仅 可 以 是 单个 变量 ， 还 支持 函数 和 复合 表达 式 。 参 
数 可 用 于 指定 动作 节点 和 decision 节点 的 配置 值 、XML 属性 值 和 XML 元素 值 ， 但 是 不 能 在 
节点 名 称 、XML 属性 名 称 、XML 元 素 名 称 和 节点 的 转向 元 素 中 使 用 参数 。 上 面 工作 流 中 的 
${jobTracker} 和 $fnameNode} 两 个 参数 ， 分 别 指定 YARN 资源 管理 器 的 主机 /端口 和 HDFS 
NameNode 的 主机 /端口 (如 果 配 置 了 HDFS HA, NameNode 使 用 Nameservice ID) 。 
${focusNodeLogin} 指 定 本 地 shell 脚本 所 在 主机 ，${myScript} 指 定 本 地 shell 脚本 文件 全 路 径 。 

Oozie 的 工作 流 作 业 本 身 还 提供 了 丰富 的 内 建 函 数 ，Oozie 将 它们 统称 为 表达 式 语言 函数 

(Expression Language Functions， 简 称 EL 函数 ) 。 通 过 这 些 函 数 可 以 对 动作 节点 和 decision 

节点 的 谓词 进行 更 复杂 的 参数 化 。 上 面 定 义 的 工作 流 中 使 用 了 wf:errorMessage 和 
wf:lastErrorNode 两 个 内 建 函数 。wf:errorMessage 函数 返回 特定 节点 的 错误 消息 ， 如 果 没 有 错 
误 则 返回 空 字 符 串 。 错 误 消 息 常 被 用 于 排 错 和 通知 的 目的 。wf:lastErrorNode 函数 返回 最 后 出 
错 的 节点 名 称 ， 如 果 没 有 错误 则 返回 空 字符 串 。 

2. 部 署 工作 流 

这 里 所 说 的 部 署 就 是 把 相关 文件 上 传 到 HDFS 的 对 应 目录 中 。 我 们 需要 上 传 工作 流 定义 
文件 ， 还 要 上 传 fle、archive、script 元 素 中 指定 的 文件 。 可 以 使 用 hdfs dfs -put 命令 将 本 地 文 
件 上 传 到 HDFS，-f 参 数 的 作用 是 ， 如 果 目 标 位 置 已 经 存在 同名 的 文件 ， 则 用 上 传 的 文件 覆盖 
已 存在 的 文件 。 

# 上 传 工作 流 文件 

hdfs dfs -put -f workflow.xml /user/oozie/ 

* EIE MySQL JDBC 驱动 文件 到 Oozie 的 共享 库 目录 中 


hdfs dfs -put /var/lib/ambari-agent/tmp/mysql-connector-java-5.1.38-bin.jar 
/user/oozie/share/lib/lib 20170208131207/sqoop/ 


3. 建立 本 地 shell 脚本 文件 
建立 内 容 如 下 的 /root/regular_etl.sh 文件 : 


#!/bin/bash 
+ 使 用 gpadmin 用 户 执行 定期 装载 函数 
su - gpadmin -c 'export PGPASSWORD=123456;psql -U dwtest -d dw -h hdp3 -c "set 





search path-tds;select fn regular load();"' 


该 shell 文件 内 容 很 简单 ， 可 执行 的 就 一 行 ， 调 用 psal 执行 HAWQ 定期 数据 装载 函数 。 
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1 5.4 Falcon 简介 


Apache Falcon 是 一 个 面向 Hadoop 的 、 新 的 数据 处 理 和 管理 平台 ， 设 计 用 于 数据 移动 、 
数据 管道 协调 、 生 命 周期 管理 和 数据 发 现 。 它 使 终端 用 户 可 以 快速 地 将 他 们 的 数据 及 其 相关 的 
处 理 和 管理 任务 “上 载 (onboard) ”到 Hadoop 集群 。Falcon 解决 了 大 数据 领域 中 一 个 非常 重 
要 和 关键 的 问题 ， 已 经 升级 为 Apache MAMA. Falcon 有 一 个 完善 的 路 线 图 ， 可 以 减少 应 用 
程序 开发 人 员 编写 复杂 数据 管理 和 处 理应 用 程序 的 痛苦 。 

用 户 会 发 现 ， 在 Apache Falcon 中 ，“ 基 础 设施 端点 Cinfrastructure endpoint) ”、 数 据 集 

(也 称 Feed ) 、 处 理 规则 均 是 声明 式 的。 这 种 声明 式 配置 显 式 定义 了 实体 之 间 的 依赖 关系 。 
这 也 是 该 平台 的 一 个 特点 , 它 本 身 只 维护 依赖 关系 ， 而 并 不 做 任何 繁重 的 工作 。 所 有 的 功能 和 
工作 流 状 态 管理 需求 都 委托 给 工作 流 调度 程序 来 完成 。 


1. Falcon 架构 
15-4 是 Falcon 的 架构 图 。 








图 15-4 Falcon 架构 


从 上 图 可 以 看 出 ，Apache Falcon: 


€ 在 Hadoop 环境 中 各 种 数据 和 “处 理 元 素 (processing element) ”之 间 建 立 了 联系 。 

€ 7.5 Hive/HCatalog 集成 。 

€ ”根据 可 用 的 Feed 组 向 最 终 用 户 发 送 通知 。 

2. 调度 器 

Falcon 选择 Oozie 作为 默认 的 调度 器 。Hadoop 上 的 许多 数据 处 理 需 要 基于 数据 可 用 性 或 
时 间 进 行 调度 ， 当 前 Oozie 本 身 就 支持 这 些 功能 。 同 时 Falcon 系统 又 是 开放 的 ， 可 以 整合 其 
他 调度 器 。Falcon process 调度 流程 如 图 15-5 所 示 。 
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第 15 章 ”自动 调度 执行 ETL 作业 





Instance 
Management 





图 15-5 Falcon process 调度 流程 


1 5 e 5 用 Falcon process 调度 Oozie 工作 流 


本 示例 中 ， 只 使 用 Falcon 的 process 功能 ， 调 用 前 面 定义 的 Oozie 工作 流 定期 自动 执行 。 
以 下 为 配置 步骤 。 

1. 启动 Falcon 服务 

示例 实验 环境 使 用 的 HDP2.5.0， 在 安装 之 时 就 已 经 配置 并 启动 了 Falcon 服务 。 可 以 在 
Ambari Web 控制 台中 交互 式 配置 、 启 动 、 停 止 、 重 启 Falcon 服务 。 

2. 建立 Falcon Cluster 使 用 的 HDFS 目录 


# 建立 目录 

hdfs dfs -mkdir /apps/falcon/primaryCluster 

hdfs dfs -mkdir /apps/falcon/primaryCluster/staging 
hdfs dfs -mkdir /apps/falcon/primaryCluster/working 


+ 修改 属 主 


hdfs dfs -chown -R falcon:users /apps/falcon/* 


# 修改 权限 
hdfs dfs -chmod -R 777 /apps/falcon/primaryCluster/staging 
hdfs dfs -chmod -R 755 /apps/falcon/primaryCluster/working 


3. 建立 Falcon Cluster 


Falcon 里 的 Cluster 定义 集群 上 各 种 资源 的 默认 访问 点 ， 还 定义 Falcon 作业 使 用 的 默认 工 
作 目 录 。 在 Falcon Web UI 中 ， 单 击 Create 一 Cluster， 在 界面 中 填写 Cluster 相关 信息 ， 这 里 
定义 如 下 : 


€ Cluster Name: 集群 的 唯一 标识 ， 填 写 primaryCluster。 
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Data Center or Colo Name: 4448 4 £ 48, 345 primaryColo. 

Tags: 标签 用 于 对 实体 进行 分 组 和 定位 ， 填 写 EntityType 和 Cluster. 

File System Read Endpoint Address: NameNode 地 址 ， 填 写 http://hdp1:50070。 

File System Default Address: 文件 系统 地 址 ， 由 于 配置 了 HDFS HA， 此 处 填写 
hdfs://mycluster. 

Yarn Resource Manager Address: YARN 资源 管理 器 地 址 ， 填 写 hdp2:8050。 
Workflow Address: 工作 流 地 址 ， 填 写 http://hdp2:11000/oozie/。 

Message Broker Address: 消息 代理 地 址 ， 填 写 tcp://hdp2:61616?daemon=true。 


其 他 属性 使 用 默认 值 ， 所 有 信息 确认 后 保存 Cluster 定义 。 创 建 Falcon Cluster 可 以 参考 


https://hortonworks.com/hadoop-tutorial/create-falcon-cluster/. 


4. 建立 Falcon process 


在 Falcon Web UI 中 ， 单 击 Create — Process， 在 界面 中 填写 Process 相关 信息 ， 这 里 定义 
如 下 : 


在 


Process Name: 处 理 名 称 ， 填 写 RegularETL. 

Engine: 执行 引擎 ， 选 择 Oozie. 

Workflow Name: 工作 流 名 称 ， 填写 RegularETL。 此 名 称 是 在 Oozie 的 workflow.xml 
中 定义 的 名 称 。 

Workflow Path: 工作 流 目录 ， 填 写 /user/o0zie。 该 路 径 是 workflow.xml 文件 所 在 的 
HDFS A x. 

Cluster: 集群 名 称 ， 选 择 primaryCluster。 该 集群 是 上 一 步 建立 的 Cluster。 

Startd: 执行 开始 时 间 ， 选 2017/5/18 01:00 PM, F741 点 开始 执行 。 

End: 执行 结束 时 间 ， 使 用 默认 的 2099/12/31 11:59 AM. 

Repeat Every: 重复 执行 周期 ， 使 用 默认 的 30 minutes， 每 半 小 时 执行 一 次 。 本 示例 
实际 应 该 选 1 Days， 半 小 时 执行 一 次 主要 方便 看 Process 执行 结果 。 

Timezone: 选择 ( GMT +8:00) 。 


Oozie 的 workflow.xml 工作 流 文件 中 使 用 了 $f{jobTracker} 、$fnameNode} ~ 


${focusNodeLogin}、${myScript} 等 形式 参数 。 工 作 流 被 Oozie 执行 时 ， 所 有 形 参 都 必须 提供 
具体 的 值 。 这 些 值 在 创建 process 时 的 ADVANCED OPTIONS 一 Properties 指定 。 这 里 的 配置 
如 图 15-6 所 示 。 所 有 信息 确认 后 保存 process 定义 。 
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ADVANCED OPTIONS a 


Retry Policy 
Type Delay Up to Attempts 
Periodic. M 30 minutes M 3 


Performance & Ordering 


Max Parallel Instances Order 


1 H FIFO H 


Properties 
nameNode hdfs://mycluster - delete 


jobTracker háp2:8050 - delete 
queueName default - delete 
oazie use system libpath tne - delete. 
oozie wf application path ${nameNode}/user/oozie - delete 
focusNodeLogin root@hdp2 - delete 


myScript /rootiregular_etl sh - delete | + ADD 


Access Control List 





图 15-6 5E X Falcon process 属性 


定义 Falcon Process 可 以 参考 https://hortonworks.com/hadoop-tutorial/defining-processing- 
data-end-end-data-pipeline-apache-falcon/. 


5. 执行 Falcon process 

首次 执行 process 前 ， 先 将 Sqoop 的 目标 数据 目录 改 为 完全 读 写 横 式 ， 和 否则 可 能 报 权限 错 
误 。 这 是 初始 化 性 质 的 一 次 性 操作 ， 之 后 不 再 需要 这 步 。 

su - hdfs -c 'hdfs dfs -chmod -R 777 /data/ext' 


等 到 下 午 一 点 开始 第 一 次 执行 RegularETL Process， 之 后 每 半 小 时 执行 一 次 。Falcon 的 执 
行 结果 如 图 15-7 所 示 。 


























„Pause EM Copy golem XM 
esuarETL prmaryChater. 
INSTANCES ~ 
Instance Started IT Ended it Status If 
2017/18 13:02 SUCCEEDED 
20175781330 2075081331 SUCCEEDED 
2017581400 20175/81402 CEEDED 
20175781430 2017508 1431 CEEDED 
2017581500 20175481501 CEEDED 
20175/81530 20175/481531 CEEDED 
2017578 1600 2017581601 SUCCEEDED 
2017581630 2017581631 SUCCEEDED 
20175781700 RUNNING 


























15-7 Falcon process 执行 结果 
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在 Oozie Web UI 可 以 看 到 ，Falcon 在 Oozie 中 自动 创建 了 Workflow Job. Coordinator Job 
和 Bundle Job， 分 别 如 图 15-8、 图 15-9、 图 15-10 所 示 。 





























je Wen Console 
Workflow Jobs Coordinator Jobs | Bundle X 
User Group Created Starac LastModified Ended 
1 000008 1-1705101323541 0 adnan Tha, 16 May 2017 0. Thu, 18 May 2017 C... Thu, 18 May 2017 0... Thu, 18 May 2017 0. 
2 0000082-1705161323541. 0 adun Thu, 18 May 2017 0... Thu. 18 May 2017 0... Thu, 18 May 2017 0... Thu, 18 May 2017 0. 
3 0000079-1705161323541 X D admn Tha, 16 May 2017 0... Tha, 18 May 2017 ©... Thu, 18 May 2017 0... Thu, 18 May 2017 0 
4 0000080-17051613235414 RegularETL o admn Thu, 16 May 2017 0. Thu, 18 May 2017 0... Thu, 18 May 2017 0... Thu, 18 May 2017 0. 
5 0000078-17051613235414. RegularETL 0 admn Thu. 18 May 2017 0... Thu. 18 May 2017 0... Thu, 18 May 2017 0... Thu, 18 May 2017 0. 
6 0000077-1701813235414... FALCON, PROCESS DEFAULT. Rogu'arETL SUCC.. 0 admn Tha, 18 Nay 2017 0... Thu, 18 May 2017 0... Tha, 18 May 2017 0... Thu, 18 May 2017 0. 
7 0000075-17051813235414.. FALCON_PROCESS_DEFAULT_RegualETL succo admn Thu, 16 May 2017 0. Thu, 18 May 2017 0... Thu, 18 May 2017 0... Thu, 18 May 2017 0. 
8 0000076-17051613235414. RegularETL SUCC 0 admin Thu. 18 Maj20170.. Thu. 18 May 2017 0. Thu. 18 May 2017 0. Thu. 18 May 2017 0 
9 0000073-17051613235414... FALCON, PROCESS, DEFAULT. ReguiarETL SUCC..0 admin Tha, 16 May 2017 0... Tha, 18 May 2017 C... Thu, 18 Mey 2017 0... Thu, 18 Mey 2017 0 
[10 0000074-17051813235414.. RegularETL succo agmn ‘Tha, 1€ May 2017 0... Thu, 18 May 2017 0. Thu, 18 May 2017 0. 
11 0000072-17051613235414 RegularETL SUCC 0 admn Thu. 16 May 2017 0... Thu. 18 May 2017 0 Thu. 18 May 2017 0 
12 000007 t-17051613235414... FALCON_PROCESS_DEFAULT_ReguarETL SUCC..0 admin Tha, 16 May 2017 0... Tha, 18 May 2017 C... Thu, 18 Mey 2017 0... Thu, 18 Mey 2017 0. 
13, 0000069-17051613235414... FALCON. PROCESS DEFAULT. ReguarETL succ.. o aomn Thu, 18 May 2017 0. Thu, 18 May 2017 0... Thu, 18 May 2017 0. Thu, 18 May 2017 0. 
14 0000070-17051613235414 RegularETL SUCC 0 admn Thu, 18 May 20170 Thu, 18May 20170 Thu 18 May 2017 0 Thu, 18 May 2017 0 
15 0000067-17051613235414... FALCON_PROCESS_DEFAULT_ReguarETL SUCC..0 admin Tha, 16 May 2017 0... Tha, 10 May 2017 C... Thu, 18 Mey 2017 0... Thu, 18 Mey 2017 0. 
116 0000068-17051613235414... RegularETL succ.. 0 admn Thu, 18 May 2017 0... Thu, 18 May 2017 0... Thu, 18 May 2017 0.. Thu, 18 May 2017 0. 
17 o000085-17051613235414 FALCON, PROCESS DEFAULT, ReguiarETL SUCC 0 admn Thu, 18 May 20170 Thu, 18 May 20170 Thu, 18 May 2017 0 Thu, 18 May 2017 0 
18 0000066-17051613235414... RegulerETL SUCC..0 admin Tha, 16 May 2017 0... Thu, 10 May 2017 0... Thu, 18 Mey 2017 0... Thu, 18 Mey 2017 0. 

























S: All Jobs Active Jobs Done Jobs Custom Filter" 


Job Id Name Status Started Next Materialization 
1 0000064-170516132354145.. FALCON, PROCESS DEFAULT RegularETL. RUNNI Thu, 18 May 2017 0... Thu, 18 May 2017 1 
2 0000053-170516132354145... FALCON PROCESS DEFAULT RegularETL KILLED Thu, 18 May 2017 0. 
3 0000048-170516132354145.. FALCON_PROCESS_DEFAULT_RegularETL KILLED Thu, 18 May 2017 0... Thu, 18 May 2017 0. 
4 0000043-170516132354145... FALCON. PROCESS DEFAULT RegularETL. KILLED Thu, 18 May 2017 0... Thu, 18 May 2017 0. 
5 0000040-170516132354145... FALCON PROCESS DEFAULT RegularETL KILLED Fri, 19 May 2017 02. 
6 0000035-170516132354145.. FALCON PROCESS DEFAULT RegularETL KILLED Thu, 18 May 2017 0... Fri, 19 May 2017 02 





图 15-9 Falcon 在 Oozie 中 自动 创建 的 Coordinator Job 


Oozie Web Console 





Workflow Jobs Coordinator Jobs Bundle Jobs System Info | Instrumentation | Settings 
Si All Jobs Active Jobs Done Jobs Custom Filter” 


Job Id Name ‘Status User Group Kickoff Time Created Time 
1 0000063-17051613235414.. FALCON_PROCESS_RegularETL RUNNL.. admin Thu, 18 May 2017 0 
2 0000052-17051613235414.. FALCON PROCESS RegularETL KILLED admin Thu, 18 May 2017 0 
3 0000047-17051613235414.. FALCON PROCESS RegularETL KILLED admin Thu, 18 May 2017 0 
4 0000042-17051613235414.. FALCON PROCESS RegularETL KILLED admin Thu, 18 May 2017 0 
5 0000039-17051613235414.. FALCON PROCESS RegularETL KILLED admin Thu, 18 May 2017 0 
6 0000034-17051613235414.. FALCON PROCESS RegularETL KILLED admin Thu, 18 May 2017 0 


15-10 Falcon 在 Oozie 中 自动 创建 的 Bundle Job 


15.6 we 


Oozie 是 Hadoop 生态 





里 的 工作 流 系统 ， 支 持 Workflow. Coordinator 和 Bundle 三 种 作 


业 。Oozie 的 主要 特点 是 自动 调度 、 并 行 执行 、 可 参数 化 。Falcon 是 面向 Hadoop 的 新 一 代数 


di bg 





和 管理 平台 ， 设 计 用 于 数据 移动 、 数 据 管道 协调 、 生 命 周 期 管理 和 数据 发 现 。 在 销售 订 


单 示 例 数 据 仓 库 中 ， 我 们 定义 了 一 个 Oozie 工作 流 ， 其 中 执行 的 动作 包括 HDFS 命令 、Sqoop 
作业 和 本 地 shell 脚本 。 三 个 Sqoop 动作 并 行 执行 ,本 地 shell 脚本 调用 psql 命令 行 ,执行 HAWQ 
的 定期 ETL 用 户 自 定义 函数 。 然 后 利用 Falcon process 调度 Oozie 工作 流 定 时 自动 执行 。 
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前 面 章节 中 ， 我 们 实现 了 多 维 数据 仓库 的 基本 功能 ， 如 使 用 Sqoop 和 HAWQ 实现 ETL 
过 程 ， 使 用 Oozie 和 Falcon 定期 执行 ETL 任务 等 。 本 章 将 继续 讨论 常见 的 维度 表 技术 。 我 们 
以 最 简单 的 “增加 列 ” 开 始 ， 继 而 讨论 维度 子 集 、 角 色 扮 演 维度 、 层 次 维度 、 退 化 维度 、 杂 项 
维度 、 维 度 合并 、 分 段 维度 等 基本 的 维度 表 技 术 。 这 些 技术 都 是 在 实际 应 用 中 经 常用 到 的 。 在 
说 明 这 些 技 术 的 相关 概念 和 使 用 场景 后 , 我 们 以 销售 订单 数据 仓库 为 例 , 给 出 实现 代码 和 测试 
过 程 ， 必 要 时 会 对 ETL 脚本 做 出 适当 修改 。 


16.7 增加 列 


业务 的 扩展 或 变化 是 不 可 避免 的 ， 尤 其 像 互 联网 行业 ， 需 求 变更 已 经 成 为 常态 ， 唯 一 不 变 
的 就 是 变化 本 身 ， 其 中 最 常 碰 到 的 扩展 是 给 一 个 已 经 存在 的 表 增 加 列 。 

以 销售 订单 为 例 , 假设 因为 业务 需要 , 在 操作 型 源 系统 的 客户 表 中 增加 了 送 货 地 址 的 四 个 
字段 ,并 在 销售 订单 表 中 增加 了 销售 数量 字段 。 由 于 数据 源 表 增 加 了 字段 , 数据 仓库 中 的 表 也 
要 随 之 修改 。 本 节 说 明 如 何在 客户 维度 表 和 销售 订单 事实 表 上 添加 列 , 并 在 新 列 上 应 用 SCD2， 
以 及 对 定时 装载 脚本 所 做 的 修改 。 图 16-1 显示 了 增加 列 后 的 数据 仓库 模式 。 




















16-1. 增加 列 后 的 数据 仓库 模式 


1. 修改 数据 库 表 结 构 


COD 修改 源 数据 库 表 结构 
执行 下 面 的 SQL 语句 修改 MySQL 中 源 数据 库 模式 。 


use source; 


-- 在 客户 表 最 后 增加 四 列 

alter table customer 
add shipping_address varchar(30) after customer_state, 
add shipping zip code int after shipping address, 
add shipping city varchar(30) after shipping zip code, 
add shipping state varchar(2) after shipping city ; 


-- 在 销售 订单 表 最 后 增加 一 列 

alter table sales_order add order_quantity int after order_amount ; 

以 上 语句 给 客户 表 增加 了 四 列 , 表示 客户 的 送 货 地 址 。 销售 订单 表 在 销售 金额 列 后 面 增加 
了 销售 数量 列 。 注 意 after 关键 字 ， 这 是 MySQL 对 标准 SQL 的 扩展 ，HAWQ 目前 还 不 支持 这 
种 扩展 ， 只 能 把 新 增 列 加 到 已 有 列 的 后 面 。 在 关系 理论 中 ， 列 是 没有 顺序 的 。 


(2) 修改 ext 模式 中 的 表 结 构 
HAWQ 外 部 表 目 前 不 支持 ALTER TABLE 语句 ， 报 错 如 下 : 
dw=> alter table ext.customer add column shipping address varchar (30); 
ERROR: "customer" is an external table 
HINT: Use ALTER EXTERNAL TABLE instead 
dw-» alter external table ext.customer add column shipping address 
varchar(30);ERROR: Cannot support alter external table statement yet 


因此 要 增加 列 只 能 重建 HAWQ 外 部 表 。 我 们 在 数据 抽取 时 都 是 覆盖 外 部 表 ， 其 中 的 数据 
只 是 临时 性 的 ， 重 建 表 不 涉及 数据 问题 ， 并 不 会 造成 很 大 影响 。 
-- 设置 模式 查找 路 径 


set search_path to ext; 





-- 删除 客户 外 部 表 
drop external table customer; 
-- 建立 客户 外 部 表 
create external table customer 
( customer number int, 
customer name varchar(30), 
customer street address varchar(30), 
customer zip code int, 
customer city varchar(30), 
customer state varchar(2), 
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shipping address varchar (30), 
shipping zip code int, 
shipping city varchar(30), 
shipping state varchar(2) ) 
location ('pxf://mycluster/data/ext/customer?profile-hdfstextsimple') 
format 'text' (delimiter-e','); 


-- 删除 销售 订单 外 部 表 


drop external table sales order; 
-- 建立 销售 订单 外 部 表 
create external table sales order 
( order number int, 
customer number int, 
product code int, 
order date timestamp, 
entry date timestamp, 
order amount decimal(10 , 2 ), 
order quantity int ) 
location ('pxf://mycluster/data/ext/sales order?profile-hdfstextsimple') 


format 'text' (delimiter=e',', null-'null'); 
需要 注意 的 是 ext 表 中 列 的 顺序 要 和 源 数 据 库 严 格 保持 一 致 。 因为 客户 表 和 产品 表 是 全 量 
覆盖 抽取 数据 ， 所 以 如 果 源 和 目标 顺序 不 一 样 ， 将 产生 错误 的 结果 。 
(3) 修改 rds 模式 中 的 表 结 构 
HAWQ 允许 使 用 ALTER TABLE 语句 为 内 部 表 增 加 列 。 与 MySQL 不 同 ，HAWQ 每 条 
ALTER TABLE 语句 只 能 增加 一 列 ， 因 此 增加 四 列 需 要 执行 四 次 ALTER TABLE 语句 ， 并 且 
在 增加 列 时 需要 指定 新 增 列 的 默认 值 ， 和 否则 会 报 类 似 如 下 的 错误 : 
ERROR: ADD COLUMN with no default value in append-only tables is not yet 
supported. 


使 用 下 面 的 SQL 语句 修改 rds 模式 中 的 表 结 构 。 


alter table rds.customer add column shipping_address varchar (30) default null; 
alter table rds.customer add column shipping zip code int default null; 

alter table rds.customer add column shipping city varchar(30) default null; 

alter table rds.customer add column shipping state varchar(2) default null; 


comment on column rds.customer.shipping address is ' 送 货 地 址 '; 
comment on column rds.customer.shipping zip code is ' 送 货 邮编 '; 
comment on column rds.customer.shipping city is ' 送 货 城市 '; 


comment on column rds.customer.shipping state is ' 送 货 省 份 '; 


alter table rds.sales order add column order quantity int default null; 
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comment on column rds.sales order.order quantity is ' 销 售 数量 ' 


(4) 修改 tds 模式 中 的 表 结 构 
使 用 下 面 的 SQL 语句 修改 tds 模式 中 的 表 结 构 。 


alter table tds.customer dim add column shipping address varchar (30) default 
null; 

alter table tds.customer_dim add column shipping zip code int default null; 

alter table tds.customer dim add column shipping city varchar(30) default 
null;alter table tds.customer dim add column shipping state varchar(2) default 
null; 

comment on column tds.customer dim.shipping address is ' 送 货 地 址 '; 

comment on column tds.customer dim.shipping zip code is ' 送 货 邮 编 '; 

comment on column tds.customer dim.shipping city is ' 送 货 城市 7 


comment on column tds.customer dim.shipping state is " 送 货 省 份 ' 7 


alter table tds.sales_order_fact add column order_quantity int default null; 
comment on column tds.sales order fact.order quantity is ' 销 售 数量 ' 


2. 重建 相关 视图 
HAWQ 不 允许 修改 视图 的 列 数 ， 错 误 信息 如 下 : 


ERROR: cannot change number of columns in view 
因此 需要 使 用 下 面 的 SQL 语句 重建 客户 维度 表 的 当前 视图 和 历史 视图 ， 增 加 四 列 。 
(1) 重建 客户 维度 当前 视图 


-- 切换 到 tds 模式 
set search path=tds; 


-- 删除 视图 


drop view v_customer dim latest; 


-- 建立 视图 
create or replace view v_customer_dim latest as 
select customer_sk, customer_number, customer_name, customer_street_address, 
customer_zip_code, customer_city, customer_state, shipping_address, 
shipping_zip_code, shipping_city, shipping_state, version, 
effective date 
from (select distinct on (customer_number) customer_number, customer_sk, 
customer name, customer street address, customer zip code, 
customer city, customer state, shipping address, 
shipping zip code, shipping city, shipping state, 
isdelete, version, effective date 


from customer dim 
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order by customer_number, customer_sk desc) as latest 
where isdelete is false; 








(2) 重建 客户 维度 历史 视图 
-- 切换 到 tds 模式 


set search path-tds; 


-- 删除 视图 


drop view v_customer_dim his; 


-- 建立 视图 ， 增 加 版 本 过 期 日 期 导出 列 

create or replace view v_customer_dim his as 

select *, date(lead(effective_date,1,date '2200-01-01') over (partition by 
customer number order by effective date)) expiry date 


from customer dim; 


3. 修改 定期 装载 函数 fn_regular_load 


增加 列 后 , 对 定期 装载 函数 fin_regular_load 也 要 做 相应 的 修改 , 增加 对 新 增 数据 列 的 处 理 。 
这 里 只 需要 对 客户 维度 表 和 销售 订单 事实 表 的 部 分 进行 修改 , 修改 后 的 函数 如 下 (只 列 出 修改 
的 部 分 ) 。 


create or replace function fn_regular_load () 
returns void as $$ 
declare 


-- 设置 scd 的 生效 时 间 


-- 分 析 外 部 表 

-- 将 外 部 表 数 据 装载 到 原始 数据 表 
-- 分 析 rds 模式 的 表 

-- 设置 cdc 的 上 限时 间 


-- 装载 客户 维度 

insert into tds.customer dim 

(customer_number, customer_name, customer_street_address, 

customer zip code, customer city, customer state, 

shipping address, shipping zip code, shipping city, shipping state, 

isdelete, version, effective date) 

select case flag when 'D' then a customer number else b customer number 
end customer number, 
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case flag when 'D' then a customer name else b customer name 
end customer name, 
case flag when 'D' then a customer street address 
else b customer street address 
end customer street address, 
case flag when 'D' then a customer zip code else b customer zip code 
end customer zip code, 
case flag when 'D' then a customer city else b customer city 
end customer city, 
case flag when 'D' then a customer state else b customer state 
end customer state, 
case flag when 'D' then a shipping address else b shipping address 
end shipping address, 
case flag when 'D' then a shipping zip code else b shipping zip code 
end shipping zip code, 
case flag when 'D' then a shipping city else b shipping city 
end shipping city, 
case flag when 'D' then a shipping state else b shipping state 
end shipping state, 
case flag when 'D' then true else false 
end isdelete, 
case flag when 'D' then a version when 'I' then 1 else a version + 1 
end v, 
v pre date 
from (select a.customer number a customer number, 
a.customer name a customer name, 
a.customer street address a customer street address, 
a.customer zip code a customer zip code, 
a.customer city a customer city, 
a.customer state a customer state, 
a.shipping address a shipping address, 
a.shipping zip code a shipping zip code, 
a.shipping city a shipping city, 
a.shipping state a shipping state, 
a.version a version, 
b.customer number b customer number, 
b.customer name b customer name, 
b.customer street address b customer street address, 
b.customer zip code b customer zip code, 
b.customer city b customer city, 
b.customer state b customer state, 
b.shipping address b shipping address, 
b.shipping zip code b shipping zip code, 
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b.shipping city b shipping city, 
b.shipping state b shipping state, 
case when a.customer number is null then 'I' 
when b.customer number is null then 'D' 
else 'U' 
end flag 
from v customer dim latest a 
full join rds.customer b on a.customer number = b.customer number 
where a.customer number is null -- 新 增 
or b.customer number is null -- 删除 
or (a.customer number = b.customer number 
and not (coalesce(a.customer name,'') = 
coalesce(b.customer name,'') 
and coalesce(a.customer street address,'') - 


coalesce(b.customer street address,'') 


and coalesce(a.customer zip code,0 
coalesce(b.customer zip code,0) 

and coalesce(a.customer city,'') - 
coalesce(b.customer city,'') 

and coalesce(a.customer state,'') = 


coalesce(b.customer state,'') 


and coalesce(a.shipping address, '') 
coalesce(b.shipping address,'') 


and coalesce(a.shipping zip code,0) 
coalesce(b.shipping zip code,0) 

and coalesce(a.shipping city,'') - 
coalesce(b.shipping city,'') 

and coalesce(a.shipping state,'') = 
coalesce(b.shipping state,'') ))) t 

order by coalesce(a customer number, 999999999999), b customer number 
limit 999999999999; 


-- 装载 产品 维度 


-- 装载 order 维度 


-- 装载 销售 订单 事实 表 
insert into sales order fact 
select order sk, customer sk, product sk, date sk, year * 100 + month, 
order amount, order quantity 
from rds.sales order a, 
order dim b, 


v customer dim his c, 
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v product dim his d, 
date dim e, 
rds.cdc time f 
where a.order number - b.order number 
and a.customer number = c.customer number 
and a.order date »- c.effective date 
and a.order date « c.expiry date 
and a.product code - d.product code 
and a.order date »- d.effective date 
and a.order date « d.expiry date 
and date(a.order date) - e.date 
and a.entry date »- f.last load and a.entry date « f.current load; 


-- 分 析 tds 模式 的 表 
-- 更 新 时 间 戳 表 的 last load 字段 


end; $$ 
language plpgsql; 

同 客户 地 址 一 样 ， 新 增 的 送 货 地 址 列 也 是 用 SCD2 新 增 历史 版 本 。 与 14.5 节 建 立 的 定期 
装载 函数 中 相同 部 分 比较 ， 会 发 现在 比较 客户 属性 时 使 用 了 coalesce 函数 。 

源 系 统 库 中 , 客户 地 址 和 送 货 地 址 列 都 是 允许 为 空 的 , 这 样 的 设计 是 出 于 灵活 性 和 容错 性 
的 考虑 。 我 们 以 送 货 地 址 为 例 进行 讨论 。 使 用 “a.shipping_address = b.shipping_address” 条 件 
判断 送 货 地 址 是 否 更 改 ， 根 据 等 号 两 边 的 值 是 否 为 空 ， 会 出 现 以 下 三 种 情况 : 

(1) shipping address 和 b.shipping_address 都 不 为 空 。 这 种 情况 下 如 果 两 者 相等 则 返 
true， 说 明 地 址 没有 变化 ， 否 则 返回 false, DEMERS, IEMA. 

(2) shipping address 和 b.shipping address 都 为 空 。 两 者 的 比较 会 演变 成 null-null, 根据 
HAWQ 对 “=” 操 作 符 的 定义 ， 会 返回 NULL。 此 时 如 果 其 他 属性 没 变 ， 则 比较 演变 为 NOT 
(NULL AND TRUE)， 和 否则 演变 为 NOT (NULL AND FALSE)， 前 者 返回 NULL， 后 者 返回 
TRUE。 这 符合 我 们 的 逻辑 。 

(3) shipping address 和 b.shipping address 只 有 一 个 为 空 。 就 是 说 地 址 列 从 NULL 变 成 
AE NULL, 或 者 从 非 NULL 变 成 NULL， 这 种 情况 明显 应 该 新 增 一 个 版 本 ， 但 根据 “=” 的 定 
义 ， 此 时 a.shipping_address=b.shipping_address 返回 值 是 NULL， 查 询 不 会 返回 行 ， 不 符合 我 
们 的 需求 。 


基于 以 上 分 析 ， 这 里 使 用 HAWQ 的 coalesce 函数 处 理 NULL 值 (类 似 于 Oracle 的 NVL 
或 SQL Server 的 ISNULL) 将 NULL 值 比较 转化 为 标量 值 比较 。 空 值 的 逻辑 判断 有 其 特殊 性 ， 
为 了 避免 不 必要 的 有 麻烦， 数据库 设计 时 应 该 尽量 将 字段 设计 成 非 空 ， 必 要 时 用 默认 值 代替 
NULL， 并 将 此 作为 一 个 基本 的 设计 原则 。 





Iz] 
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4. 测试 
CD 在 源 库 中 增加 测试 数据 
执行 下 面 的 SQL 语句 ， 在 MySQL 的 源 数据 库 中 增加 客户 和 销售 订单 测试 数据 。 


use source; 


-- 默认 的 送 货 地 址 与 客户 地 址 相同 
update customer 
set shipping address = customer_street_address, 
shipping zip code = customer zip code, 
shipping city - customer city, 


shipping state - customer state ; 


-- 新 增 一 个 客户 
insert into customer 


(customer name, customer_street_address, customer_zip code, customer city, 


customer state,shipping address,shipping zip code,shipping city,shipping state) 
values 

(‘online distributors', '2323 louise dr.', 17055, 'pittsburgh', 'pa', 

'2323 louise dr.', 17055, 'pittsburgh', 'pa') ; 


-- 新 增订 单 日 期 为 昨天 的 9 条 订单 。 

set @start_date := unix_timestamp(date_add(current_date, interval -1 day)); 

set @end_date :- unix timestamp(current date); 

drop table if exists temp sales order data; 

create table temp sales order data as select * from sales order where 1-0; 

set QGorder date := from unixtime(G8start date + rand() * (eend date - 
Gstart date)); 

set @amount := floor(1000 + rand() * 9000); 

set @quantity := floor(10 + rand() * 90); 

insert into temp sales order data 

values (117, 1, 1, G8order date, Gorder date, @amount, quantity); 


… 新 增 9 条 订单 … 


insert into sales_order 
select null,customer number,product code,order date,entry date, 
order amount,order quantity 
from temp sales order data 
order by order date; 


commit ; 
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(2) 执行 定期 ETL 脚本 


su - hdfs -c 'hdfs dfs -chmod -R 777 /data/ext' 
~/regular_etl.sh 


regular etl.sh 是 在 14.6 节 建 立 的 定期 ETL shell 脚本 文件 ， 在 此 不 需要 做 修改 。 


(3) 查询 数据 ， 确 认 ETL 过 程 正 确 执 行 

regular etl.sh 成 功 执行 后 ， 查 询 v customer dim latest 和 v customer dim his 视图 ， 应 该 
看 到 由 于 源 库 中 为 送 货 地 址 增加 了 默认 值 , 每 条 客户 记录 都 新 增 了 一 个 版 本 , 老 的 过 期 记录 的 
送 货 地 址 为 室 。9 号 客户 是 新 加 的 ， 具 有 送 货 地 址 。 查 询 sales_order fact 表 ， 应 该 只 有 9 个 订 
单 有 销售 数量 ， 老 的 销售 数据 数量 字段 为 空 。 


15.2 维度 子 集 


有 些 需求 不 需要 最 细节 的 数据 。 例 如 更 想 要 某 个 月 的 销售 汇总 ， 而 不 是 某 天 的 数据 。 再 比 
如 相对 于 全 部 的 销售 数据 , 可 能 对 某 些 特定 状态 的 数据 更 感 兴趣 等 。 此 时 事实 数据 需要 关联 到 
特定 的 维度 ， 这 些 特定 维度 包含 在 从 细节 维度 选择 的 行 中 , 所 以 叫 维度 子 集 。 维 度 子 集 比 细节 
维度 的 数据 少 ， 因 此 更 易 使 有 用， 查询 也 更 快 。 

有 时 称 细节 维度 为 基本 维度 , 维度 子 集 为 子 维度 , 基本 维度 表 与 子 维度 表 具 有 相同 的 属性 
RAR, 称 这 样 的 维度 表 具 有 一 致 性 。 一致 的 维度 具有 一 致 的 维度 关键 字 、 一 致 的 属性 列 名 字 、 

- 致 的 属性 定义 以 及 一 致 的 属性 值 。 如 果 属 性 的 含义 不 同 或 者 包含 不 同 的 值 , 维度 表 就 不 是 一 

致 的 。 

子 维度 是 一 种 一 致 性 维度 ， 由 基本 维度 的 列 与 行 的 子 集 构成 。 当 构建 聚合 事实 表 , 或 者 需 
要 获取 粒度 级 别 较 高 的 数据 时 , 通常 用 到 子 维度 。 对 基本 维度 和 子 维度 表 来 说 , 属性 是 公共 的 ， 
其 标识 和 定义 相同 ， 两 个 表 中 的 值 相同 ,然而 ,基本 维度 和 子 维度 表 的 主键 是 不 同 的 。 还 有 另 
外 一 种 情况 , 就 是 当 两 个 维度 具有 同样 粒度 级 别 的 细节 数据 , 但 其 中 一 个 仅 表 示 行 的 部 分 子 集 
时 ， 也 需要 一 致 性 维度 子 集 。 

ETL 数据 流 应 当 根据 基本 维度 建立 一 致 性 子 维度 ， 而 不 是 独立 于 基本 维度 ， 以 确保 一 臻 
性 。 本 节 中 将 准备 两 个 特定 子 维度 ， 月 份 维度 与 Pennsylvania 州 客户 维度 。 它 们 均 取 自 现 有 的 
维度 ， 月 份 维度 是 日 期 维度 的 子 集 ，Pennsylvania 州 客户 维度 是 客户 维度 的 子 集 。 

1. 建立 包含 属性 子 集 的 子 维度 

(1) 建立 月 份 维度 表 


-- 设置 模式 查找 路 径 
set search path to tds; 


-- 建立 月 份 维度 表 
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create table month_dim ( 
month_sk bigserial, 
month smallint, 
month name varchar (9), 
quarter smallint, 
year smallint ); 


comment on table month dim is ' 月 份 维度 表 ' 


(2) 初始 装载 月 份 维度 数据 
本 示例 中 ， 以 下 语句 将 生成 252 条 月 份 数据 。 


insert into month_dim (month, month_name, quarter, year) 
select distinct month, month_name, quarter, year 
from date_dim 
order by year, month 
limit 99999999999999; 


analyze month_dim; 


G) 建立 追加 日 期 数据 的 函数 
该 函数 用 于 向 日 期 维度 表 和 月 份 维度 表 追 加 数据 。 如 果 日 期 所 在 的 月 份 没 在 月 份 维度 中 ， 
那么 该 月 份 会 被 装载 到 月 份 维度 中 。 


create or replace function fn append date (end dt date) 
returns void as $$ 
declare 
v date date; 
v datediff int; 
begin 
select max(date) * 1 into v date from date dim; 
v datediff :- end dt - v date; 


for i in 0 .. v datediff 

loop 
insert into date dim(date, month, month name, quarter, year) 
values(v date, extract(month from v date), to char(v date, 'mon'), 

extract(quarter from v date), extract(year from v date)); 

v date :- v date * 1; 

end loop; 

analyze date dim; 


insert into month dim (month, month name, quarter, year) 


select * from 
(select distinct month, month name, quarter, year 
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from date_dim 

except all 

select month, month_name, quarter, year 
from month_dim) t 

order by year, month 

limit 99999999999999; 

analyze month_dim; 


end; $$ 
language plpgsql; 


(4) 测试 追加 日 期 数据 的 函数 
执行 以 下 语句 追加 生成 一 年 的 日期 数据 。 


select fn append date(date '2021-12-31'); 

执行 下 面 的 查询 ， 应 该 看 到 日 期 维度 表 新 增 2021 年 的 365 条 记录 。 

select * from date_dim where date > date '2020-12-31' order by date; 

执行 下 面 的 查询 ， 应 该 看 到 月 份 维度 表 新 增 2021 年 的 12 条 记录 ， 

select * from month_dim where year > 2020 order by year,month; 

2. 建立 包含 行 子 集 的 子 维度 

当 两 个 维度 处 于 同一 细节 粒度 , 但 是 其 中 一 个 仅仅 是 行 的 子 集 时 , 会 产生 另外 一 种 一 致 性 


维度 构造 子 集 。 例如 ,销售 订单 示例 中 ,客户 维度 表 包 含 多 个 州 的 客户 信息 。 对 于 不 同 州 的 销 
售 分 析 可 能 需要 浏览 客户 维度 的 子 集 , 需要 分 析 的 维度 仅 包 含 部 分 客户 数据 。 通过 使 用 行 的 子 


集 ， 


不 会 破坏 整个 客户 集合 。 当 然 ， 与 该 子 集 连接 的 事实 表 必 须 被 限制 在 同样 的 客户 子 集中 。 


月 份 维度 是 一 个 上 卷 维度 ， 包 含 基 本 维度 的 上 层 数 据 ， 而 特定 维度 子 集 是 基本 维度 的 行 子 集 。 
执行 下 面 的 脚本 建立 特定 维度 表 ， 并 导入 Pennsylvania (PA) 客户 维度 子 集 数 据 。 
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(1) 建立 PA 客户 维度 表 


create table pa_customer_dim 
(customer_sk bigserial, 
customer number int, 

customer name varchar(50), 
customer street address varchar(50), 
customer zip code int, 

customer city varchar(30), 
customer state varchar(2), 
isdelete boolean default false, 
version int, 

effective date date, 

shipping address varchar(50), 


shipping zip code int, 
shipping city varchar(30), 
shipping state varchar(2)); 


comment on table pa customer dim is 'PA 客户 维度 表 '; 
PA 客户 维度 子 集 与 月 份 维度 子 集 有 两 点 区 别 : 


€ pa customer dim 表 和 customer dim 表 有 完全 相同 的 列 ,而 month_dim 不 包含 date_dim 
表 的 日 期 列 。 
€ pa customer dim 表 的 代理 键 就 是 客户 维度 的 代理 键 ， 而 month dim 表 里 的 月 份 维度 
代理 键 并 不 来 自 日 期 维度 ， 而 是 独立 生成 的 。 
(2) 修改 定期 装载 函数 
通常 在 基本 维度 表 装 载 数 据 后 , 进行 包含 其 行 子 集 的 子 维度 表 的 数据 装载 。 因 此 修改 定期 
装载 函数 fn. regular load, 增加 对 PA 客户 维度 的 处 理 , 修改 后 的 fn regular load 函数 如 下 (只 
列 出 修改 的 部 分 ) 。 
create or replace function fn_regular_load () 
returns void as $$ 


declare 


-- 设置 scd 的 生效 时 间 


begin 
-- 分 析 外 部 表 


3 将 外 部 表 数 据 装 载 到 原始 数据 表 

- 分 析 rds 模式 的 表 

ES 设置 cdc 的 上 限时 间 

装载 客户 维度 

重 载 Pa 客户 维度 

truncate table pa_customer_dim; 


insert into pa_customer_dim 


select customer_sk, customer_number, customer_name, 


customer_street_address, customer zip code, customer city, 
customer state, isdelete, version, effective date, shipping address, 
shipping zip code, shipping city, shipping state 


from customer dim 


where customer state = 'pa'; 
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-- 装载 产品 维度 

E: 装载 order 维度 

-- 装载 销售 订单 事实 表 

4 分 析 tds 模式 的 表 

P EIN ARRAN last load 字段 


end; $$ 
language plpgsql; 


上 面 的 函数 在 处 理 完 客户 维度 表 后 ， 装 载 PA 客户 维度 。 每 次 重新 覆盖 pa customer dim 
表 中 的 所 有 数据 。 先 用 truncate table 语句 清空 表 ， 然 后 用 insert into … select 语句 ， 从 客户 维度 
表 中 选取 Pennsylvania 州 的 数据 ， 并 插入 到 pa_customer_dim 表 中 。 


(3) 测试 定期 数据 装载 函数 
用 以 下 步骤 测试 PA 客户 子 维度 的 数据 装载 。 
M0) 执行 下 面 的 SQL 语句 向 客户 源 数 据 里 添加 一 个 PA 的 客户 和 四 个 OH 的 客户 。 


use source; 

insert into customer 

(customer name, customer street address, customer zip code, 

customer city, customer state, shipping address, 

shipping zip code, shipping city, shipping state) 

values 

('pa customer', '1111 louise dr.', '17050', 'mechanicsburg', 'pa', '1111 louise 
(sieur '17050', 'mechanicsburg', 'pa'), 

('bigger customers', '7777 ridge rd.', '44102', 'cleveland', 'oh', '7777 ridge 
bo r 

'44102', 'cleveland', 'oh'), 

('smaller stores', '8888 jennings fwy.', '44102', 'cleveland', 'oh', '8888 
jennings fwy.', '44102', 'cleveland', 'oh'), 

('small-medium retailers', '9999 memphis ave.', '44102', 'cleveland', 'oh', 
'9999 memphis ave.', '44102', 'cleveland', 'oh'), 

('oh customer', '6666 ridge rd.', '44102', 'cleveland', 'oh', '6666 ridge rd.', 
'44102','cleveland', 'oh') ; 


commit; 
CX» 使 用 下 面 的 命令 执行 定期 装载 。 
~/regular etl.sh 


C€XX03 使 用 下 面 的 查询 验证 结果 ，pa_customer dim 表 此 时 应 该 有 20 条 记录 。 
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select customer_name, customer_state, version, effective_date 


from tds.pa_customer_dim; 

3. 使 用 视图 实现 维度 子 集 

为 了 实现 维度 子 集 ， 我 们 创建 了 新 的 子 维度 表 。 这 种 实现 方式 有 两 个 主要 问题 ， 一 是 需要 
额外 的 存储 空间 ， 因 为 新 创建 的 子 维度 是 物理 表 ; 二 是 存在 数据 不 一 致 的 潜在 风险 。 本 质 上 ， 
只 要 相同 的 数据 存储 多 份 , 就 会 有 数据 不 一 致 的 可 能 。 这 也 就 是 为 什么 在 数据 库 设 计时 要 强调 
规范 化 以 最 小 化 数据 宛 余 的 原因 之 一 。 为 了 解决 这 些 问题 , 还 有 一 种 常用 的 做 法 是 在 基本 维度 
上 建立 视图 生成 子 维度 。 下 面 是 创建 子 维度 视图 的 SQL 语句 。 

-- 建立 月 份 维度 视图 


create view v month dim as 





select row number() over (order by tl.year,tl.month) month sk, tl.* 


from (select distinct month, month name, quarter, year from date dim) t1; 


-- 建立 PR 维度 视图 
create view v_pa_customer_dim as 


select * from customer dim where customer state = 'pa'; 


-- 建立 PA 维度 当前 视图 
create view v pa customer dim latest as 
select * from v customer dim latest where customer state - 'pa'; 


-- 建立 PA 维度 历史 视图 
create view v pa customer dim his as 


select * from v customer dim his where customer state - 'pa'; 


这 种 方法 的 主要 优点 是 : 实现 简单 ， 只 要 创建 视图 ， 不 需要 修改 原来 脚本 中 的 逻辑 ; AN 
用 存储 空间 ， 因 为 视图 不 真正 存储 数据 ; 消除 了 数据 不 一 致 的 可 能 ， 因 为 数据 只 有 一 份 。 虽 然 
优点 很 多 , 但 此 方法 的 缺点 也 十 分 明显 : 当 基本 维度 表 和 子 维度 表 的 数据 量 相差 悬殊 时 ， 性 能 
会 比 物理 表 差 得 多 ; 如 果 定 义 视图 的 查询 很 复杂 ,并 且 视 图 很 多 的 话 ， 可 能 会 对 元 数据 存储 系 
统 造成 压力 ， 严 重 影响 查询 性 能 。 

注意 ， 视 图 是 与 存储 无 关 的 纯粹 的 逻辑 对 象 ，HAWQ 不 支持 物化 视图 。 当 查询 引用 了 一 
个 视图 , 视图 的 定义 被 评估 后 产生 一 个 行 集 , 用 作 查 询 后 续 的 处 理 。 这 只 是 一 个 概念 性 的 描述 ， 
实际 上 ， 作 为 查询 优化 的 一 部 分 ，HAWQ 可 能 把 视图 的 定义 和 查询 结合 起 来 考虑 ， 而 不 一 定 
是 先生 成 视图 所 定义 的 行 集 。 例 如 ， 优 化 器 可 能 将 查询 的 过 滤 条 件 下 推 到 视图 中 。 

- 且 视 图 建立 ， 它 的 结构 就 是 固定 的 ， 之 后 底层 表 的 结构 改变 ， 如 添加 字段 等 ， 不 会 反映 
到 视图 的 结构 中 。 如 果 底 层 表 被 删除 了 , 或 者 表 结 构 改变 成 一 种 与 视图 定义 不 兼容 的 形式 , 视 
图 将 变 为 无 效 状态 ， 其 上 的 查询 将 失败 。 

视图 是 只 读 的 ， 不 能 对 视图 使 用 LOAD 或 INSERT 语句 装载 数据 ， 但 可 以 使 用 alter view 
语句 修改 视图 的 某 些 元 数据 。 视 图 定义 中 可 以 包含 order by 和 limit 子 句 ， 例 如 ， 如 果 一 个 视 
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图 定义 中 指定 了 limit 5， 而 查询 语句 为 select* from v limit 10， 那 么 至 多 会 返回 5 行 记录 。 





角色 扮演 维度 


单个 物理 维度 可 以 被 事实 表 多 次 引用 ， 每 个 引用 连接 逻辑 上 存在 差异 的 角色 维度 。 例 如 ， 
事实 表 可 以 有 多 个 日 期 , 每 个 日 期 通过 外 键 引用 不 同 的 日 期 维度 , 原则 上 每 个 外 键 表示 不 同 的 
日 期 维度 视图 , 这 样 引用 具有 不 同 的 含义 。 这些 不 同 的 维度 视图 具有 唯一 的 代理 键 列 名 ,被 称 
为 角色 ， 相 关 维 度 被 称 为 角色 扮演 维度 。 

当 一 个 事实 表 多 次 引用 一 个 维度 表 时 会 用 到 角色 扮演 维度 。 例如 , 一 个 销售 订单 有 一 个 是 
订单 日 期 , 还 有 一 个 请 求 交 付 日 期 , 这 时 就 需要 引用 日 期 维度 表 两 次 。 我 们 期 望 在 每 个 事实 表 
中 设置 日 期 维度 ， 因 为 总 是 希望 按照 时 间 来 分 析 业 务 情况 。 在 事务 型 事实 表 中 , 主要 的 日 期 列 
是 事务 日 期 ， 例 如 ， 订 单 日 期 。 有 时 会 发 现 其 他 日 期 也 可 能 与 每 个 事实 关联 ， 例 如 ， 订 单 事 务 
的 请 求 交付 日 期 。 每 个 日 期 应 该 成 为 事实 表 的 外 键 。 

本 节 说 明 两 类 角色 扮演 维度 的 实现 ， 分 别 是 表 别名 和 数据 库 视 图 。 表 别名 是 在 SQL 语句 
里 引用 维度 表 多 次 , 每 次 引用 都 赋予 维度 表 一 个 别名 。 而 数据 库 视 图 ， 则 是 按照 事实 表 需 要 引 
用 维度 表 的 次 数 , 建立 相同 数量 的 视图 。 我们 先 修改 销售 订单 数据 库 模 式 , 添加 一 个 请 求 交 付 
日 期 字段 ， 并 对 数据 抽取 和 装载 脚本 做 相应 的 修改 。 这 些 表 结构 修改 好 后 ,插入 测试 数据 ， 演 
示 别 名 和 视图 在 角色 扮演 维度 中 的 用 法 。 


1. 修改 数据 库 模式 
(1) 修改 源 库 表 结构 
执行 下 面 的 语句 ， 给 源 库 中 销售 订单 表 sales order 增加 request delivery date 字段 。 


use source; 


alter table sales order add request delivery date datetime after order date ; 


(2) 修改 数据 仓库 表 结构 
-- 修改 外 部 表 


drop external table ext.sales order; 
create external table ext.sales order 
( order number int, 
customer number int, 
product code int, 
order date timestamp, 
request delivery date timestamp, 
entry date timestamp, 
order amount decimal(10 , 2 ), 
order quantity int ) 
location ('pxf://mycluster/data/ext/sales order?profile=hdfstextsimple') 
format 'text' (delimiter-e',', null-'null'); 
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comment on table ext.sales order is ' 销 售 订单 外 部 表 '; 


-- 修改 rds.sales order 

alter table rds.sales order add column request delivery date timestamp default 
null; 

comment on column rds.sales order.request delivery date is ' 请 求 交付 日 期 '; 


-- 修改 tds.sales order fact 

alter table tds.sales order fact add column request delivery date sk bigint 
default null; 

comment on column tds.sales order fact.request delivery date sk is ' 请 求 交 付 


日 期 维度 代理 键 ' ; 

comment on column tds.sales order fact.order date sk is ' 订 单 日 期 维度 代理 键 '; 

增加 列 的 过 程 已 经 在 16.1 节 详 细 讨论 过 。HAWQ 不 支持 给 外 部 表 增加 列 ， 因 此 需要 重建 
表 。 在 销售 订单 外 部 表 上 增加 请 求 交 付 日 期 字段 ， 数 据 类 型 是 timestamp， 对 应 源 库 表 上 的 
datetime 类 型 。 注 意外 部 表 中 列 的 顺序 要 和 源 表 中 列 定义 的 顺序 保持 一 致 。RDS 和 TDS 中 的 
内 部 表 直接 使 用 ALTER TABLE 语句 增加 请 求 交付 日 期 列 。 因 为 HAWQ 的 ADD COLUMN 
不 支持 after 语法 , 新 增 字 段 会 加 到 所 有 已 存在 字段 的 后 面 。 修 改 后 数据 仓库 模式 如 图 16-2 
所 示 。 
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图 16-2 数据 仓库 中 增加 请 求 交付 日 期 属性 
从 图 中 可 以 看 到 , 销售 订单 事实 表 和 日 期 维度 表 之 间 有 两 条 连 线 , 表示 订单 日 期 和 请 求 交 
付 日 期 都 是 引用 日 期 维度 表 的 外 键 。 注 意 ， 虽 然 图 中 显示 了 表 之 间 的 关联 关系 , 但 HAWQ 中 
并 不 支持 主 外 键 数据 库 约 束 。 
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2. 修改 定期 数据 装载 函数 
定期 装载 函数 需要 增加 对 请 求 交付 日 期 列 的 处 理 , 修改 后 的 函数 如 下 所 示 (只 显示 修改 的 
部 分 ) 。 


create or replace function fn regular load () 
returns void as $$ 
declare 


-- 设置 scd 的 生效 时 间 


-- 分 析 外 部 表 


-- 将 外 部 表 数 据 装载 到 原始 数据 表 


insert into rds.sales order 
select order number, customer number, product code, order date, 
entry date, order amount, order quantity, request delivery date 


from ext.sales order; 
-- 分 析 rds 模式 的 表 
-- 设置 cdc 的 上 限时 间 
-- 装载 客户 维度 
-- HR PA 客户 维度 
-- 装载 产品 维度 
-- 装载 order 维 度 


-- 装载 销售 订单 事实 表 
insert into sales order fact 
select order sk, customer sk, product sk, e.date sk, e.year * 100 * e.month, 
order amount, order quantity, f.date sk 
from rds.sales order a, 
order dim b, 
v customer dim his c, 
v product dim his d, 
date dim e, 
date dim f, 
rds.cdc time g 
where a.order number = b.order number 
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and a.customer_number = c.customer_number 

and a.order date >= c.effective date 

and a.order date < c.expiry date 

and a.product_code = d.product_code 

and a.order date >= d.effective date 

and a.order date < d.expiry date 

and date(a.order date) = e.date 

and date(a.request_delivery date) = f.date 

and a.entry date >= g.last load and a.entry date < g.current load; 


-- 分 析 tds 模式 的 表 
-- 更 新 时 间 截 表 的 last_1oad 字段 


end; $$ 
language plpgsql; 


函数 做 了 以 下 两 点 修改 : 


€ RA rdssales_order 时 显 式 指定 列 的 顺序 ， 因 为 外 部 表 与 内 部 表 列 的 顺序 不 一 致 。 

@ 在 装载 销售 订单 事实 表 时 ， 关 联 了 日 期 维度 表 两 次 ， 分 别 赋予 别名 e 和 f。 事 实 表 和 
两 个 日 期 维度 表 关 联 ， 取 得 日 期 代理 键 。e.date_sk 表示 订单 日 期 代理 键 ，f.date_sk 
表示 请 求 交付 日 期 的 代理 键 。 


3. 测试 


(1) 在 源 库 中 生成 测试 数据 
执行 下 面 的 SQL 语句 在 源 库 中 增加 三 个 带 有 交 货 日 期 的 销售 订单 。 


use source; 

/*** 新 增订 单 日 期 为 昨天 的 3 条 订单 。***/ 

set @start_date := unix_timestamp(date_add(current_date, interval -1 day)); 
set @end date := unix timestamp(current date); 


drop table if exists temp sales order data; 

create table temp sales order data as select * from sales order where 1-0; 

set Gorder date := from unixtime(G8start date + rand() * (eend date - 
Gstart date)); 

set Qrequest delivery date := 
from unixtime(unix timestamp(date add(current date, interval 5 day)) + rand() * 
86400) ; 

set @amount := floor(1000 + rand() * 9000); 

set @quantity := floor(10 + rand() * 90); 

insert into temp sales order data 

values (126, 1, 1, @order date, 
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@request_delivery date, @order date, @amount, @quantity); 
… 插入 3 条 订单 记录 … 


insert into sales_order 

select null,customer number,product code,order date, 

request delivery date,entry date,order amount,order quantity 
from temp sales order data order by order date; 


commit ; 
OD 执行 定期 装载 函数 并 查看 结果 
~/regular etl.sh 
使 用 下 面 的 查询 验证 结果 。 
select a.order sk, request delivery date sk, c.date 


from sales order fact a, date dim b, date dim c 


where a.order date sk - b.date sk 


and a.request delivery date sk - c.date sk ; 


查询 结果 如 下 : 


order_sk | request_delivery date sk | date 

€— ((—————M—A^ MA——— a 
126 | 6360 | 2017-05-30 
MT 6360 | 2017-05-30 
128 | 6360 | 2017-05-30 

(3 rows) 


可 以 看 到 只 有 三 个 新 的 销售 订单 具有 request_delivery_date_sk 值 , 6360 对 应 的 日 期 是 2017 
年 5 月 30 日 。 
4. 使 用 角色 扮演 维度 查询 
(1) 使 用 表 别 名 查询 


select order date dim.date order date, 
request delivery date dim.date request delivery date, 
sum(order amount) , count (*) 
from sales order fact a, 
date dim order date dim, 
date dim request delivery date dim 
where a.order date sk - order date dim.date sk 
and a.request delivery date sk = request delivery date dim.date sk 
group by order date dim.date , request delivery date dim.date 
order by order date dim.date , request delivery date dim.date; 
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(2) 使 用 视图 查询 
-- 创建 订单 日 期 视图 


create view v order date dim 
(order date sk, 
order date, 
month, 
month name, 
quarter, 
year) 
as select * from date dim; 
-- 创建 请 求 交付 日 期 视图 
create view v_request_delivery date dim 
(request_delivery date_sk, 
request_delivery date, 
month, 
month_name, 
quarter, 
year) 
as select * from date dim; 
-- fil 
select order date,request delivery date,sum(order_amount) , count (*) 
from sales order fact a,v order date dim b,v request delivery date dim c 
where a.order date sk - b.order date sk 
and a.request delivery date sk - c.request delivery date sk 
group by order date , request delivery date 
order by order date , request delivery date; 


上 面 两 种 实现 方式 是 等 价 的 ， 查 询 结果 如 下 : 


order_date | request_delivery_date | sum | count 
-T----------- +-----------------------+----------|------- 
2017-05-24 | 2017-05-30 | 12104.00 | 3 

(1 rowl) 


尽管 不 能 连接 到 单一 的 日 期 维度 表 , 但 可 以 建立 并 管理 单独 的 物理 日 期 维度 表 , 然后 使 用 
视图 或 别名 建立 两 个 不 同日 期 维度 的 描述 .注意 在 每 个 视图 或 别名 列 中 需要 唯一 的 标识 。 例 如， 
订单 日 期 属性 应 该 具有 唯一 标识 order_date， 以 便 与 请 求 交付 日 期 request_delivery_date 区 别 。 
别名 与 视图 在 查询 中 的 作用 并 没有 本 质 的 区 别 , 都 是 为 了 从 逻辑 上 区 分 同一 个 物理 维度 表 。 许 
多 BI 工 具 也 支持 在 语义 层 使 用 别名 。 但 是 ， 如 果 有 多 个 BI 工具 ,连同 直接 基于 SQL 的 访问 ， 
都 同时 在 组 织 中 使 用 的 话 , 不 建议 采用 语义 层 别名 的 方法 。 当 某 个 维度 在 单一 事实 表 中 同时 出 
现 多 次 时 ， 则 会 存在 维度 模型 的 角色 扮演 。 基 本 维度 可 能 作为 单一 物理 表 存在 , 但 是 每 种 角色 
应 该 被 当成 标识 不 同 的 视图 展现 到 BI 工具 中 。 
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5. 一 种 有 问题 的 设计 

为 处 理 多 日 期 问题 ,一 些 设计 者 试图 建立 单一 日 期 维度 表 , 该 表 使 用 一 个 键 表示 每 个 订单 
日 期 和 请 求 交付 日 期 的 组 合 ， 例 如 : 

create table date dim (date sk int, order date date, delivery date date); 

create table sales order fact (date sk int, order amount int); 

这 种 方法 存在 两 个 的 问题 。 首 先 ， 如 果 需 要 处 理 所 有 日 期 维度 的 组 合 情 况 ,， 则 包含 大 约 每 
年 365 行 的 清晰 、 简 单 的 日 期 维度 表 将 会 极度 膨胀 。 例 如 ， 订 单 日 期 和 请 求 交付 日 期 存在 如 下 
多 对 多 关系 : 





订单 日 期 请 求 交付 日 期 

2017-05-26 2017-05-29 
2017-05-27 2017-05-29 
2017-05-28 2017-05-29 
2017-05-26 2017-05-30 
2017-05-27 2017-05-30 
2017-05-28 2017-05-30 
2017-05-26 2017-05-31 
2017-05-27 2017-05-31 
2017-05-28 2017-05-31 


如 果 使 用 角色 扮演 维度 ， 日 期 维度 表 中 只 需要 2017-05-26 ~ 2017-05-31 6 条 记录 。 而 采用 
单一 日 期 表 设 计 方 案 ,每 一 个 组 合 都 要 唯一 标识 ,明显 需要 九条 记录 。 当 两 种 日 期 及 其 组 合 很 
多 时 ， 这 两 种 方案 的 日 期 维度 表 记 录 数 会 相去 甚 远 。 

其 次 , 合并 的 日 期 维度 表 不 再 适合 其 他 经 常 使 用 的 日 、 周 、 月 等 日 期 维度 。 日 期 维度 表 每 
行 记录 的 含义 不 再 指 唯一 一 天 ， 因 此 无 法 在 同一 张 表 中 标识 出 周 、 月 等 一 致 性 维度 ， 进 而 无 法 
简单 地 处 理 按时 间 维 度 的 上 卷 、 聚 合 等 需求 。 


大 多 数 维 度 都 具有 一 个 或 多 个 层次 。 示 例 数据 仓库 中 的 日 期 维度 就 有 一 个 四 级 层次 : 年 、 
季度 、 月 和 日 。 这 些 级 别 用 date_dim 表 里 的 列表 示 。 日 期 维度 是 一 个 单 路 径 层 次 ， 因 为 除了 
年 -季度 -月 -日 这 条 路 径 外 , 它 没有 任何 其 他 层次 。 为 了 识别 数据 仓库 里 一 个 维度 的 层次 , 首先 
要 理解 维度 中 列 的 含义 ,然后 识别 两 个 或 多 个 列 是 否 具 有 相同 的 主题 。 年、 季度 、 月 和 日 具有 
相同 的 主题 ,因为 它们 都 是 关于 日 期 的 。 具有 相同 主题 的 列 形成 一 个 组 , 组 中 的 一 列 必须 包含 
至 少 一 个 组 内 的 其 他 成 员 (除了 最 低级 别 的 列 )， 前 面 提 到 的 组 中 ， 月 包含 日 。 这些 列 的 链条 
形成 了 一 个 层次 , 例如 ,年 -季度 -月 -日 这 个 链条 是 一 个 日 期 维度 的 层次 。 除 了 日 期 维度 ， 邮 编 
维度 中 的 地 理 位 置信 息 ， 产 品 维度 的 产品 与 产品 分 类 ， 也 都 构成 层次 关系 。 表 16-1 显示 了 三 
个 维度 的 层次 。 
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16-1 销售 订单 数据 仓库 中 的 层次 维度 














customer_dim product_dim date_dim 
customer_street_address | shipping_address product_name date 
customer_zip_code | shipping_zip_code product_category | month 
customer_city shipping city quarter 





shining tte | dyer 


本 节 描 述 处 理 层次 关系 的 方法 , 包括 在 固定 深度 的 层次 上 进行 分 组 和 钻 取 查 询 ， 多 路 径 层 
次 和 参差 不 齐 层 次 的 处 理 等 ， 从 最 基本 的 情况 开始 讨论 。 





16.4.1 固定 深度 的 层次 

固定 深度 层次 是 一 种 一 对 多 关系 ,如 一 年 中 有 四 个 季度 ,一 个 季度 包含 三 个 月 等 等 。 当 固 
定 深度 层次 定义 完成 后 ， 层 次 就 具有 了 固定 的 名 称 ， 层 次 级 别 作为 维度 表 中 的 不 同属 性 出 现 。 
只 要 满足 上 述 条 件 , 固定 深度 层次 就 是 最 容易 理解 和 查询 的 层次 关系 , 固定 层次 也 能 够 提供 可 
预测 的 、 快 速 的 查询 性 能 。 可 以 在 固定 深度 层次 上 进行 分 组 和 钻 取 查询 。 

分 组 查询 是 把 度量 按照 一 个 维度 的 一 个 或 多 个 级 别 进行 分 组 聚合 。 下面 的 脚本 是 一 个 分 组 
查询 的 例子 。 该 查询 按 产 品 (product_category 列 ) 和 日 期 维度 的 三 个 层次 级 别 (year、quarter 
和 month 列 ) 分 组 返回 销售 金额 。 

select product category,year,quarter,month,sum(order amount) s amount 

from v sales order fact a,product dim b,date dim c 
where a.product sk - b.product sk 
and a.year month = c.year * 100 + c.month 

group by product category, year, quarter, month 

order by product category, year, quarter, month; 


这 是 一 个 非常 简单 的 分 组 查询 ， 结 果 输 出 的 每 一 行 度 量 〈 销 售 订单 金额 ) 都 沿 着 年 -季度 - 
月 的 层次 分 组 。 

与 分 组 查询 类 似 , 钻 取 查询 也 把 度量 按照 一 个 维度 的 一 个 或 多 个 级 别 进 行 分 组 。 但 与 分 组 
查询 不 同 的 是 , 分 组 查询 只 显示 分 组 后 最 低级 别 ， 即 本 例 中 月 级 别 上 的 度量 , 而 钻 取 查询 显示 
分 组 后 维度 每 一 个 级 别 的 度量 。 下 面 使 用 UNION ALL 和 GROUPING SETS 两 种 方法 进行 钻 
取 查 询 ， 结 果 显示 了 每 个 日 期 维度 级 别 ， 即 年 、 季 度 和 月 各 级 别 的 订单 汇总 金额 。 

-- 使 用 union all 

select product category, time, order amount 

from (select product category, 

case when sequence = 1 then 'year: '||time 
when sequence - 2 then 'quarter: '||time 
else 'month: '||time 


end time, 
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order amount, 
sequence, 
date 
from (select product category, min(date) date, year time, 1 sequence, 
sum(order amount) order amount 
from v sales order fact a, product dim b, date dim c 
where a.product sk = b.product sk 
and a.year month = c.year * 100 + c.month 
group by product category , year 
union all 
select product category, min(date) date, quarter time, 
2 sequence, sum(order amount) order amount 
from v sales order fact a, product dim b, date dim c 
where a.product sk - b.product sk 
and a.year month = c.year * 100 + c.month 
group by product category , year , quarter 
union all 
select product category, min(date) date, month time, 3 sequence, 
sum(order amount) order amount 
from v sales order fact a, product dim b, date dim c 
where a.product sk - b.product sk 
and a.year month = c.year * 100 + c.month 
group by product category , year , quarter , month) x) y 
order by product category , date , sequence , time; 
-- {#9 grouping sets 
select product category, 


case when gid = 3 then 'year: '||year 
when gid = 1 then 'quarter: '||quarter 
else 'month: '||month 


end time, 
order amount 
from (select product category, year, quarter, month, min(date) date, 
sum(order amount) order amount, 
grouping(product category, year,quarter,month) gid 
from v sales order fact a, product dim b, date dim c 
where a.product sk - b.product sk 
and a.year month = c.year * 100 + c.month 
group by grouping sets 
((product category, year, quarter,month) , (product category, year,quarter), (produc 
t category,year))) x 
order by product category , date , gid desc, time; 


以 上 两 种 不 同 写法 的 查询 语句 结果 相同 : 
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product_category | time | order_amount 
Snes Potente a 
monitor | year: 2017 | 1635343.00 
monitor | quarter: 2 | 1635343.00 
monitor | month: 5 | 1635343.00 
peripheral | year: 2017 | 2079433.00 
peripheral | quarter: 2 | 2079433.00 
peripheral | month: 5 | 1792823.00 
peripheral | month: 6 | 286620.00 
storage | year: 2016 | 17467030.00 
storage | quarter: 1 | 5925898.00 
storage | month: 3 | 5925898.00 
storage | quarter: 2 | 11541132.00 
storage | month: 4 | 4633260.00 
storage | month: 5 | 3415332.00 
storage | month: 6 | 3492540.00 
storage | year: 2017 | 4701194.00 
storage | quarter: 2 | 4701194.00 
storage | month: 5 | 4427234.00 
storage | month: 6 | 273960.00 
(18 rows) 


第 一 条 语句 的 子 查询 中 使 用 union all 集合 操作 ， 将 年 、 季 度 、 月 三 个 级 别 的 汇总 数据 联 
合成 一 个 结果 集 。 注 意 union all 的 每 个 查询 必须 包含 相同 个 数 和 类 型 的 字段 。 附 加 的 min(date) 
和 sequence 导出 列 用 于 对 输出 结果 排序 显示 。 这 种 写法 使 用 标准 的 SQL 语法 ， 具 有 通用 性 。 

第 二 条 语句 使 用 HAWQ 提供 的 grouping 函数 和 group by grouping sets fi). grouping set 
对 列 出 的 每 一 个 字段 组 进行 group by 操作 ， 如 果 字 段 组 为 空 ， 则 不 进行 分 组 处 理 。 因 此 该 语 
句 会 生成 按 产 品类 型 、 和 年、 季度、 月; 类型、 年 、 季 度 ; 类 型 、 年 分 组 的 聚合 数据 行 。 
grouping(<column> [,…]) 函 数 用 于 区 分 查询 结果 中 的 null 值 是 属于 列 本 身 的 还 是 聚合 的 结果 
行 。 该 函数 为 每 个 参数 产生 一 位 0 或 1，1 代表 结果 行 是 聚合 行 ，0 表示 结果 行 是 正常 分 组 数 
据 行 。 函 数值 使 用 了 位 图 策略 (bitvector， 位 向 量 ) ， 即 它 的 二 进 制 形式 中 的 每 一 位 表示 对 应 
列 是 否 参 与 分 组 ， 如 果 某 一 列 参与 了 分 组 ， 对 应 位 就 被 置 为 1， 否 则 为 0。 最 后 将 二 进 制 数 转 
换 为 十 进 制 数 返回 。 通 过 这 种 方式 可 以 区 分 出 数据 本 身 中 的 null 值 。 


16.4.2 多 路 径 层 次 


多 路 径 层 次 是 对 单 路 径 层次 的 扩展 。 现 在 数据 仓库 的 月 维度 只 有 一 条 层次 路 径 ， 即 年 - 季 
度 -月 这 条 路 径 。 现在 增加 一 个 新 的 “促销 期 级别, 并 且 加 一 个 新 的 年 -促销 期 -月 的 层次 路 径 。 
这 时 月 维度 将 有 两 条 层次 路 径 ， 因 此 是 多 路 径 层 次 维度 。 下 面 的 脚本 给 month dim 表 添 加 一 
个 叫做 campaign session 的 新 列 ， 并 建立 rds.campaign session 过 渡 表 。 


alter table tds.month_dim add column campaign_session varchar (30) default null; 
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comment on column tds.month dim.campaign session is ' 促 销 期 '; 


create table rds.campaign session 
(campaign session varchar(30),month smallint,year smallint); 


假设 所 有 促销 期 都 不 跨 年 , 并 且 一 个 促销 期 可 以 包含 一 个 或 多 个 月 份 , 但 一 个 月 份 只 能 属 
于 一 个 促销 期 。 为 了 理解 促销 期 如 何 工 作 ， 表 16-2 给 出 了 一 个 促销 期 定义 的 例子 。 


# 16-2 2017 年 促销 期 














| esum ne | 

[2017 年 第 一 促销 期 1 月 -4 月 | 

| 2017 年 第 二 促销 期 5 月 -7 月 | 
2017 年 第 三 促销 期 8H 


2017 年 第 四 促销 期 





每 个 促销 期 有 一 个 或 多 个 月 。 一 个 促销 期 也 许 并 不 是 正好 一 个 季度 , 也 就 是 说 , 促销 期 级 
别 不 能 上 卷 到 季度 ， 但 是 促销 期 可 以 上 卷 至 年 级 别 。 假 设 2017 年 促销 期 的 数据 如 下 ， 并 保存 


在 /home/gpadmin/campaign_session.csv 文件 中 。 


2017 First Campaign,1,2017 
2017 First Campaign,2,2017 
2017 First Campaign, 3,2017 
2017 First Campaign, 4,2017 
2017 Second Campaign, 5,2017 
2017 Second Campaign, 6,2017 
2017 Second Campaign,7,2017 
2017 Third Campaign, 8,2017 
2017 Last Campaign, 9,2017 

2017 Last Campaign,10,2017 
2017 Last Campaign,11,2017 
2017 Last Campaign,12,2017 


现在 可 以 执行 下 面 的 语句 把 2017 年 的 促销 期 数据 装载 进 月 维度 。 本 地 文件 必须 在 HAWQ 
master 主机 上 的 本 地 目录 中 ， 并 且 copy 命令 需要 使 用 gpadmin 用 户 执行 。 

copy rds.campaign_session from '/home/gpadmin/campaign_session.csv' with 
delimiter ','; 


set search_path = tds; 


create table tmp as 
select tl.month sk month sk, tl.month monthl, tl.month name month name, 
tl.quarter quarter, tl.year yearl, t2.campaign session campaign session 
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from month dim t1 


left join rds.campaign session t2 on tl.year = t2.year 
and tl.month = t2.month; 


truncate table month dim; 
insert into month dim select * from tmp; 
drop table tmp; 


此 时 查询 月 份 维度 表 ， 应 该 看 到 2017 年 的 促销 期 已 经 有 数据 了 ， 其 他 年 份 的 
campaign_session 字段 值 为 null。 


1643 ”参差 不 齐 的 层次 


在 一 个 或 多 个 级 别 上 没有 数据 的 层次 称 为 不 完全 层次 。 例 如 , 在 特定 月 份 没有 促销 期 , 那 
么 月 维度 就 具有 不 完全 促销 期 层次 。 下 面 是 一 个 不 完全 促销 期 的 例子 ， 数 据 存储 在 
ragged campaign.csv 文件 中 。2017 年 1 月 、 4 月、6 月 、9 月 、10 月、11 月 和 12 月 没有 促销 期 。 


71,2017 

2017 Early Spring Campaign, 2,2017 
2017 Early Spring Campaign, 3,2017 
74,2017 

2017 Spring Campaign,5,2017 
76,2017 

2017 Last Campaign, 7,2017 

2017 Last Campaign, 8,2017 

79,2017 

,10,2017 

,11,2017 

,12,2017 


新 向 month. dim 表 装 载 促销 期 数据 。 


truncate table rds.campaign session; 








copy rds.campaign_session from '/home/gpadmin/ragged_campaign.csv' with 
delimiter ','; 


set search path = tds; 

create table tmp as 

select tl.month sk month sk, tl.month monthl, tl.month name month name, 
tl.quarter quarter, tl.year yearl, null campaign session 


from month dim t1; 


truncate table month dim; 
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insert into month_dim 
select tl.month sk, tl.monthl, tl.month name, tl.quarter, tl.yearl, 
case when t2.campaign session !- '' then t2.campaign session 
else tl.month name 
end campaign session 
from tmp tl left join rds.campaign session t2 
on tl.yearl - t2.year and tl.monthl - t2.month; 


drop table tmp; 


在 有 促销 期 的 月 份 ，campaign_session 列 填写 促销 期 名 称 ， 而 对 于 没有 促销 期 的 月 份 ， 该 
列 填写 月 份 名 称 。 轻微 参 差 不 齐 层次 没有 固定 的 层次 深度 , 但 层次 深度 有 限 。 如 地 理 层 次 深度 
通常 包含 3~6 层 。 与 其 使 用 复杂 的 机 制 构 建 难以 预测 的 可 变 深度 层次 ， 不 如 将 其 变换 为 固定 
深度 位 置 设计 ， 针 对 不 同 的 维度 属性 确立 最 大 深度 ， 然 后 基于 业务 规则 放置 属性 值 。 

下 面 的 语句 查询 年 -促销 期 -月 层次 。 


select product_category, 
case when gid = 3 then cast(year as varchar(10)) 
when gid = 1 then campaign_session 
else month_name 
end time, 
order_amount 
from (select product_category, year, campaign_session, month, month_name, 
sum(month order amount) order amount, 
sum(month order quantity) order quantity, 
grouping(product category,year,campaign session,month) gid, 
min(month) min month 
from v month end sales order fact a, product dim b, month dim c 
where a.product sk - b.product sk 
and a.year month = c.year * 100 + c.month 
and c.year - 2017 
group by grouping sets 
((product category,year,campaign session,month,month name), (product category,y 
ear,campaign session), (product category,year))) x 
order by product category, min month, gid desc, month; 


查询 结果 如 下 : 

product_category | time | order_amount 
cce ere A DREE creep e e Eo Io ER e nini 
monitor | 2017 | 52753.00 
monitor | 2017 Spring Campaign | 52753.00 
monitor | may | 52753.00 
peripheral | 2017 | 67387.00 
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peripheral | 2017 Spring Campaign | 57833.00 
peripheral | may | 57833.00 
peripheral | jun | 9554.00 
peripheral | jun | 9554.00 
storage | 2017 | 151946.00 
storage | 2017 Spring Campaign | 142814.00 
storage | may | 142814.00 
storage | jun | 9132.00 
storage | jun | 9132.00 
(13 rows) 


min month 列 用 于 排序 。 在 有 促销 期 月 份 的 路 径 ,月 级 别 的 行 的 汇总 与 促销 期 级 别 的 行 相 
同 。 而 对 于 没有 促销 期 的 月 份 ， 其 促销 期 级 别 的 行 与 月 级 别 的 行 相同 。 也 就 是 说 ,在 没有 促销 
期 级 别 的 月 份 ， 月 上 卷 了 它们 自己 。 例 如 ，2017 年 6 月 没有 促销 期 ， 所 以 在 输出 看 到 ， 每 种 
产品 分 类 有 两 个 相同 的 6 月 的 行 ,其 中 后 一 行 是 月 份 级 别 的 行 ,前 一 行 表示 是 没有 促销 期 的 行 。 
对 于 没有 促销 期 的 月 份 ， 促 销 期 行 的 销售 订单 金额 〈 输 出 里 的 order amount 列 ) 与 月 分 行 的 
相同 。 


16.5 退化 维度 


退化 维度 技术 减少 维度 的 数量 , 简化 多 维 数据 仓库 模式 。 简 单 的 模式 比 复杂 的 更 容易 理解 ， 
也 有 更 好 的 查询 性 能 。 有 时 ， 维 度 表 中 除了 业务 主键 外 没有 其 他 内 容 。 在 本 销售 订单 示例 中 ， 
订单 维度 表 除了 订单 号 , 没有 任何 其 他 属性 , 而 订单 号 是 事务 表 的 主键 , 这 种 维度 就 是 退化 维 
度 。 业 务 系统 中 的 主键 通常 是 不 允许 修改 的 。 销售 订单 只 能 新 增 , 不 能 修改 已 经 存在 的 订单 号 ， 
也 不 会 删除 订单 记录 。 因 此 订单 维度 表 也 不 会 有 历史 数据 版 本 问题 。 

销售 订单 事实 表 中 的 每 行 记录 都 包括 作为 退化 维度 的 订单 号 代理 键 。 在 操作 型 系统 中 , 销 
售 订单 表 是 最 细节 事务 表 , 订单 号 是 订单 表 的 主键 , 每 条 订单 都 可 以 通过 订单 号 定位 ,订单 中 
的 其 他 属性 ， 如 客户 、 产 品 等 ， 都 依赖 于 订单 号 。 也 就 是 说 ， 订 单 号 把 与 订单 属性 有 关 的 表 联 
REK. 但 是 ,在 维度 模型 中 , 事实 表 中 的 订单 号 代理 键 通常 与 订单 属性 的 其 他 表 没有 直接 关 
联 , 而 是 将 订单 事实 表 所 有 关心 的 属性 分 类 到 不 同 的 维度 中 。 例如, 订单 日 期 关联 到 日 期 维度 ， 
客户 关联 到 客户 维度 等 ,在 事实 表 中 保留 订单 号 最 主要 的 原因 是 用 于 连接 数据 仓库 与 操作 型 系 
统 , 它 也 可 以 起 到 事实 表 主键 的 作用 。 某 些 情况 下 ,可 能 会 有 一 个 或 两 个 属性 仍然 属于 订单 而 
不 属于 其 他 维度 。 当 然 ， 此 时 订单 维度 就 不 再 是 退化 维度 了 。 

退化 维度 党 被 保留 作为 操作 型 事务 的 标识 符 ,实际 上 可 以 将 订单 号 作为 一 个 属性 加 入 到 事 
实 表 中 。 这 样 订单 维度 就 没有 数据 仓库 需要 的 任何 数据 ， 此 时 就 可 以 退化 订单 维度 。 需要 把 退 
化 维度 的 相关 数据 迁移 到 事实 表 中 ,然后 删除 退化 的 维度 。 操作 型 事务 中 的 控制 号 码 , 如 订单 
号 码 、 发 票 号 码 、 提 货 单 号 码 等 通常 产生 空 的 维度 并 表示 为 事务 事实 表 中 的 退化 维度 。 
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1. 退化 订单 维度 
使 用 维度 退化 技术 时 先 要 识别 数据 ， 分 析 从 来 不 用 的 数据 列 。 订 单 维度 的 order number 


列 就 是 这 样 的 一 列 。 但 如 果 用 户 想 看 事务 的 细节 ， 还 需要 订单 号 。 因 此 ， 在 退化 订单 维度 前 ， 
要 把 订单 号 迁移 到 sales_order_fact 事实 表 。 图 16-3 显示 了 修改 后 的 模式 。 


E2 





date_dim 
date sk — pi» 
date 
month 
month name 
quarter 
year 
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product dim sales order fact customer name 
customer street address 
Spi, fi customer_zip_code 
E Siti SUV e 
Pioduct eR ERES i order date sk Spi fil custoner state 
isdelete ! year month isdelete 
version order amount =| || version 
x order_quantity effective_date 
effective_date ili à uen shipping alum 








shipping zip code 
shipping city 
shipping state 











16-3. 退化 订单 维度 
按 顺 序 执行 下 面 的 四 步 退 化 order dim 维度 表 : 


(1) 给 sales_order_fact 表 添 加 order_number 列 。 

(2) 把 order dim 表 里 的 订单 号 迁移 到 sales order fact 表 。 
(3) 删除 sales_order_fact 表 里 的 order_sk 列 。 

(4) 删除 order dim 表 。 


下 面 的 语句 完成 所 有 退化 订单 维度 所 需 的 步骤 。 


set search path-tds; 


alter table sales order fact rename to sales order fact old; 
create table sales order fact as 
select t2.o0rder number, tl.customer sk, tl.product sk, tl.order date sk, 
tl.year month, tl.order amount, tl.order quantity, 
tl.request delivery date sk 
from sales order fact old tl inner join order dim t2 on tl.order sk = 


.Order sk; 


comment on table sales order fact is ' 销 售 订单 事实 表 '; 
comment on column sales order fact.order number is ' 订 单 号 '; 
comment on column sales order fact.customer sk is ' 客 户 维度 代理 键 '; 
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comment on column sales order fact.product sk is ' 产 品 维度 代理 键 ' 

comment on column sales order fact.order date sk is ' 日 期 维度 代理 键 '; 

comment on column sales order fact.year month is ' 年 月 分 区 键 '; 

comment on column sales order fact.order amount is ' 销 售 金额 '; 

comment on column sales order fact.order quantity is ' 数 量 '; 

comment on column sales order fact.request delivery date sk is ' 请 求 交付 日 期 代 
mt; 


drop table sales order fact old; 

drop table order dim; 

HAWQ 没有 提供 UPDATE 功能 , 因此 要 更 新 已 有 数据 的 订单 号 , 只 能 重新 装载 所 有 数据 。 
本 例 中 ， 订 单 号 维度 表 中 代理 键 和 订单 号 业务 主键 的 值 相 同 ， 其 实 可 以 简单 地 将 事实 表 的 
order sk 字段 改名 为 order_number。 但 这 只 是 一 种 特殊 情况 ， 通 常 代 理 键 和 业务 主键 的 值 是 不 
同 的 ， 因 此 这 里 依然 使 用 标准 的 方式 重新 生成 数据 。 

2. 修改 定期 数据 装载 函数 

退化 一 个 维度 后 需要 做 的 另 一 件 事 就 是 修改 定期 数据 装载 函数 。 需 要 把 订单 号 加 入 到 销售 
订单 事实 表 ， 而 不 再 需要 导入 订单 维度 。 修 改 后 的 函数 如 下 《只 列 出 修改 的 部 分 ) 。 


create or replace function fn_regular_load () 





returns void as $$ 
declare 


-- 设置 scd 的 生效 时 间 


begin 
-- 分 析 外 部 表 


i 将 外 部 表 数 据 装载 到 原始 数据 表 
a 分 析 rds 模式 的 表 

B 设置 cdc 的 上 限时 间 

n 装载 客户 维度 

te 重 载 Pa 客户 维度 


-- 装载 产品 维度 


去 掉 装 载 order dim 维度 表 的 语句 
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-- 装载 销售 订单 事实 表 
insert into sales order fact 
select a.order number, 
customer sk, 
product sk, 
e.date sk, 
e.year * 100 * e.month, 
order amount, 
order quantity, 
f.date sk 
from rds.sales order a, 
v customer dim his c, 
v product dim his d, 
date dim e, 
date dim f, 
rds.cdc time g 
where a.customer number - c.customer number 
and a.order date >= c.effective date 
and a.order date « c.expiry date 
and a.product code - d.product code 
and a.order date >= d.effective date 
and a.order date « d.expiry date 
and date(a.order date) - e.date 
and date(a.request delivery date) - f.date 
and a.entry date »- g.last load and a.entry date « g.current load; 


-- 分 析 tds 模式 的 表 


-- 更 新 时 间 戳 表 的 last_load 字段 


end; $$ 
language plpgsql; 


函数 做 了 以 下 两 点 修改 : 


€ 去 掉 装 载 和 分 析 order dim 维度 表 的 语句 。 
€ 事实 表 中 的 order number 字段 字 节 从 rds.sales order 表 获 得 。 


3. 测试 


(1) 准备 测试 数据 
执行 下 面 的 SQL 语句 在 源 库 中 增加 两 条 销售 订单 记录 。 


use source; 


set @start_date := unix timestamp('2017-05-25'); 
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set @end_date := unix_timestamp('2017-05-25 12:00:00'); 

set Gorder date := from_unixtime(@start_date + rand() * (@end_date - 
@start_date)); 

set @request_delivery date := 
from unixtime(unix timestamp(date add(current date, interval 5 day)) + rand() * 
86400); 

set @amount := floor(1000 + rand() * 9000); 

set @quantity := floor(10 + rand() * 90); 


insert into sales_order values 


(null,1,1,@order_date,@request_delivery date, @order_ date, @amount, @quantity) ; 


set @start_date := unix timestamp('2017-05-25 12:00:01"); 

set @end_date := unix_timestamp('2017-05-26'); 

set @order_date := from_unixtime(@start_date + rand() * (@end_date - 
@start_date)); 

set @request_delivery date := 
from unixtime(unix timestamp(date add(current date, interval 5 day)) + rand() * 
86400); 

set @amount := floor(1000 + rand() * 9000); 

set @quantity := floor(10 + rand() * 90); 


insert into sales_order values 


(null,1,1,@order date, @request_ delivery date, @order date, @amount, @quantity) ; 


commit ; 


以 上 语句 在 源 库 上 生成 2017 年 5 月 25 日 的 两 条 销售 订单 为 了 保证 自 增订 单 号 与 订单 时 
间 顺 序 相同 ， 注 意 一 下 @order_date 变量 的 赋值 。 


(2) 执行 定期 装载 函数 并 查看 结果 
~/regular_etl.sh 
脚本 执行 成 功 后 ， 查 询 sales order fact 表 ， 验 证 新 增 的 两 条 订单 是 否 正确 装载 。 


select a.order number onum, customer name cname, product name pname, 
e.date odate, f.date rdate, 
order amount amount 
from sales order fact a, 
customer dim b, 
product_dim c, 
date dim e, 
date dim f 


where a.customer sk = b.customer sk 
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and a.product_sk = c.product_sk 

and a.order date sk = e.date sk 

and a.request delivery date sk = f.date sk 
order by order number desc 


limit 5; 
查询 结果 如 下 ， 可 以 看 到 新 增 两 条 记录 的 订单 号 被 正确 装载 。 
onum | cname pname | odate 


129 | really large customers hard disk drive| 2017-05-25 
hard disk drive| 2017-05-24 
flat panel | 2017-05-24 


floppy drive | 2017-05-24 


l 
+ 

130 | really large customers | hard disk drive| 2017-05-25 
l 

128 | really large customers | 

127 | medium retailers | 

126 | small stores | 


(5 rows) 





16.6 杂项 维度 


1. 什么 是 杂项 维度 


2017-05-31 
2017-05-31 
2017-05-30 
2017-05-30 
2017-05-30 


3531.00 
4358.00 
8003.00 
2153.00 
1948.00 


简单 地 说 , 杂项 维度 就 是 一 种 包含 的 数据 具有 很 少 可 能 值 的 维度 。 事务 型 商业 过 程 通常 产 
生 一 系列 混杂 的 、 低 基数 的 标志 位 或 状态 信息 。 与 其 为 每 个 标志 或 属性 定义 不 同 的 维度 , 不 如 
建立 单独 的 、 将 不 同 维度 合并 到 一 起 的 杂项 维度 。 这 些 维度 , 通常 在 一 个 模式 中 标记 为 事务 型 
概要 维度 , 一 般 不 需要 所 有 属性 可 能 值 的 笛 卡 儿 积 , 但 应 该 至 少 包含 实际 发 生 在 源 数 据 中 的 组 
合 值 。 例 如 ， 在 销售 订单 中 ， 可 能 存在 有 很 多 离散 数据 〈yes-no 这 种 开关 类 型 的 值 ) : 


verification ind ( 如 果 订单 已 经 被 审核 ， 值 为 yes ) 


credit check flag (表示 此 订单 的 客户 信用 状态 是 否 已 经 被 检查 ) 
new customer ind ( 如 果 这 是 新 客户 的 首 个 订单 ， 值 为 yes) 
web order flag (表示 一 个 订单 是 在 线 上 订单 还 是 线 下 订单 ) 


这 类 数据 常 被 用 于 增强 销售 分 析 ， 其 特点 是 属性 可 能 很 多 但 每 种 属性 的 可 能 值 却 很 少 。 


2. 处 理 杂 项 维度 的 常用 方法 


在 建 模 复 杂 的 操作 型 源 系统 时 , 经 常会 遭遇 大 量 五 花 八 门 的 标志 或 状态 信息 , 它们 包含 小 
范围 的 离散 值 。 处 理 这 些 较 低 基 数 的 标志 或 状态 位 可 以 采用 以 下 几 种 方法 。 


(1) 忽略 这 些 标志 和 指标 


姑且 将 这 种 回避 问题 的 处 理 方式 也 算 作 方 法 之 一 吧 。 在 开发 ETL 系统 时 ，ETL 开发 小 组 
可 以 向 业务 用 户 询问 有 关 忽 略 这 些 标志 的 必要 问题 , 如 果 它 们 是 微不足道 的 。 但 是 这 样 的 方案 


366 


通常 立即 就 被 否决 了 ， 因 为 有 人 偶尔 还 需要 它们 。 

(2) 保持 事实 表 行 中 的 标志 位 不 变 

以 销售 订单 为 例 和 源 数据 库 一 样 ， 我 们 可 以 在 事实 表 中 也 建立 这 四 个 标志 位 字段 。 在 装 
载 事实 表 时 ， 除 了 订单 号 以 外 ， 同 时 装载 这 四 个 字段 的 数据 ， 这 些 字 段 没 有 对 应 的 维度 表 ， 而 
是 作为 订单 的 属性 保留 在 事实 表 中 。 

这 种 处 理 方法 简单 直接 , 装载 过 程 不 需要 做 大 量 修改 , 也 不 需要 建立 相关 的 维度 表 。 但 是 
一 般 我 们 不 希望 在 事实 表 中 存储 难以 识别 的 标志 位 ,尤其 是 当 每 个 标志 位 还 配 有 一 个 文字 描述 
字段 时 。 不 要 在 事实 表 行 中 存储 包含 大 量 字符 的 描述 符 ， 因 为 每 一 行 都 会 有 文字 描述 ， 它 们 可 
能 会 使 表 快速 膨胀 。 在 行 中 保留 一 些 文本 标志 是 令 人 反感 的 ， 比 较 好 的 做 法 是 分 离 出 单独 的 维 
度 表 保存 这 些 标 志 位 字段 的 数据 ， 它 们 的 数据 量 很 小 , 并 且 极 少 改变 。 事 实 表 通 过 维度 表 的 代 
理 键 引用 这 些 标志 。 


(3) 将 每 个 标志 位 放 入 其 自己 的 维度 中 

例如 , 为 销售 订单 的 四 个 标志 位 分 别 建 立 四 个 对 应 的 维度 表 。 装载 事实 表 数 据 前 先 处理 这 
四 个 维度 表 ， 必 要 时 生成 新 的 代理 键 ， 然 后 在 事实 表 中 引用 这 些 代 理 键 。 这 种 方法 是 将 杂项 维 
度 当 作 普 通 维度 来 处 理 ， 多 数 情况 下 这 也 是 不 合适 的 。 

首先 ， 当 类 似 的 标志 或 状态 位 字段 比较 多 时 ， 需 要 建立 很 多 的 维度 表 ， 其 次 事实 表 的 外 键 
数 也 会 大 量 增加 。 处 理 这 些 新 增 的 维度 表 和 外 键 需要 大 量 修改 数据 装载 脚本 , 还 会 增加 出 错 的 
机 会 ， 同 时 会 给 ETL 的 开发 、 维 护 、 测 试 过 程 带 来 很 大 的 工作 量 。 最 后 ， 杂 项 维度 的 数据 有 
自己 明显 的 特点 , 即 属性 多 但 每 个 属性 的 值 少 , 并 且 极 少 修改 , 这 种 特点 决定 了 它 应 该 与 普通 
维度 的 处 理 区 分 开 。 

作为 一 个 经 验 值 ， 如 果 外 键 的 数量 处 于 合理 的 范围 中 ， 即 不 超过 20 个 ， 则 在 事实 表 中 增 
加 不 同 的 外 键 是 可 以 接受 的 。 若 外 键 列表 已 经 很 长 ， 则 应 该 避免 将 更 多 外 键 加 入 事实 表 中 。 


CD 将 标志 位 字段 存储 到 订单 维度 中 

可 以 将 标志 位 字段 添加 到 订单 维度 表 中 。 上 一 节 我 们 将 订单 维度 表 作 为 退化 维度 删除 了 ， 
因为 它 除 了 订单 号 , 没有 其 他 任何 属性 。 与 其 将 订单 号 当成 是 退化 维度 ,不 如 视 其 为 将 低 基数 
标志 或 状态 作为 属性 的 普通 维度 。 事实 表 通 过 引用 订单 维度 表 的 代理 键 , 关联 到 所 有 的 标志 位 
信息 。 

尽管 该 方法 精确 地 表示 了 数据 关系 , 但 依然 存在 前 面 讨论 的 问题 。 在 订单 维度 表 中 , 每 条 
业务 订单 都 会 存在 对 应 的 一 条 销售 订单 记录 , 该 维度 表 的 记录 数 会 膨胀 到 跟 事实 表 一 样 多 , 而 
在 如 此 多 的 数据 中 ， 每 个 标志 位 字段 都 存在 大 量 的 元 余 。 通 常 维度 表 应 该 比 事实 表 小 得 多 。 


(5) 使 用 杂项 维度 

处 理 这 些 标志 位 的 适当 替换 方法 是 将 它们 包装 为 一 个 杂项 维度 ,其 中 放置 各 种 离散 的 标志 
或 状态 数据 。 对 杂项 维度 数据 量 的 估算 会 影响 其 建 模 策 略 。 如 果菜 个 简单 的 杂项 维度 包含 10 
个 三 值 标 识 ， 则 最 多 将 包含 1024 (2^10) 行 。 杂 项 维度 可 提供 所 有 标识 的 组 合 ， 并 用 于 基于 
这 些 标识 的 约束 和 报表 。 事 实 表 与 杂项 维度 之 间 存 在 一 个 单一 的 、 小 型 的 代理 键 。 
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如 果 具 有 高 度 非 关 联 的 属性 , 包含 更 多 的 数量 值 , 则 将 它们 合并 为 单一 的 杂项 维度 是 不 合 
适 的 。 假 设 存在 5 个 标识 ， 每 个 仅 包含 3 个 值 ， 则 单一 杂项 维度 是 这 些 属性 的 最 佳 选择 ， 因 为 
维度 最 多 仅 有 243 (^50 行 。 但 如 果 5 个 没有 关联 的 标识 ， 每 个 具有 100 个 可 能 值 ， 建 议 建 
立 不 同 维度 ， 因 为 单一 杂项 维度 表 最 大 可 能 存在 1 亿 (100^5) fT. 

关于 杂项 维度 的 一 个 微妙 的 问题 是 , 在 杂项 维度 中 行 的 组 合 确定 并 已 知 的 前 提 下 , 是 应 该 
事先 为 所 有 组 合 的 完全 笛 卡 儿 积 建立 行 , 还 是 建立 杂项 维度 行 , 只 用 于 保存 那些 在 源 系统 中 出 
现 的 组 合 情 况 的 数据 。 答 案 要 看 大 概 有 多 少 可 能 的 组 合 ， 最 大 行 数 是 多 少 。 一 般 来 说 ， 理 论 上 
组 合 的 数量 较 小 ， 比 如 只 有 几 百 行 时 ， 可 以 预 装载 所 有 组 合 的 数据 。 而 组 合 的 数量 大 ， 那 么 在 
数据 获取 时 ， 当 遇 到 新 标志 或 指标 时 再 建立 杂项 维度 行 。 当 然 , 如 果 源 数据 中 用 到 了 全 体 组 合 
时 ， 那 别 无 选择 ， 只 能 预先 装载 好 全 部 杂项 维度 数据 。 


3. 新 增 销售 订单 属性 杂项 维度 
图 16-4 显示 了 增加 杂项 维度 表 后 的 数据 仓库 模式 。 
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图 16-4 杂项 维度 


给 现 有 数据 仓库 新 增 一 个 销售 订单 属性 杂项 维度 。 需 要 新 增 一 个 名 为 
sales order attribute dim 的 杂项 维度 表 ， 该 表 包 括 四 个 yes-no 列 : verification ind 、 
credit check flag, new customer ind 和 web_order_flag， 各 列 的 含义 已 经 在 本 节 开 头 说 明 。 每 
个 列 可 以 有 两 个 可 能 值 中 的 一 个 , Y 或 N， 因 此 sales order attribute dim 表 最 多 有 16 (24) 
行 。 假 设 这 16 行 已 经 包含 了 所 有 可 能 的 组 合 ， 并 且 不 考虑 杂项 维度 修改 的 情况 ， 则 可 以 预 装 
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载 这 个 维度 ， 并 且 只 需 装 载 一 次 。 
执行 下 面 的 语句 修改 数据 库 模 式 。 


-- MySQL 

-- 给 源 库 的 销售 订单 表 增加 对 应 的 属性 

use source; 

alter table sales order 
add verification_ind char (1) after product_code, 
add credit_check_flag char (1) after verification_ind, 
add new_customer_ind char (1) after credit_check_flag, 


add web order flag char (1) after new customer ind ; 


-- HAWQ 
-- 重建 外 部 表 ， 增 加 杂项 属性 ， 列 的 顺序 必须 和 源 表 一 至 
set search path-ext; 
drop external table sales order; 
create external table sales order 
( order number int, 
customer number int, 
product code int, 
verification ind char(1), 
credit check flag char(1), 
new customer ind char(1), 
web order flag char(1), 
order date timestamp, 
request delivery date timestamp, 
entry date timestamp, 
order amount decimal(10 , 2 ), 
order quantity int ) 
location ('pxf://mycluster/data/ext/sales order?profile-hdfstextsimple') 
format 'text' (delimiter-e',', null-'null'); 


comment on table sales order is ' 销 售 订单 外 部 表 '; 


-- 给 销售 订单 过 渡 表 增加 对 应 的 属性 

set search path=rds; 

alter table sales_order add column verification ind char(1) default null; 
alter table sales order add column credit check flag char(1) default null; 
alter table sales order add column new customer ind char(1) default null; 
alter table sales order add column web order flag char(1) default null; 
comment on column sales order.verification ind is ' 审 核 标 志 '; 

comment on column sales order.credit check flag is ' 信 用 检查 标志 '; 
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comment on column sales order.new customer ind is ' 客 户 首 个 订单 标志 '; 
comment on column sales order.web order flag is ' 线 上 订单 标志 '; 


set search path-tds; 

-- 建立 杂项 维度 表 

create table sales order attribute dim ( 
sales order attribute sk int, 
verification ind char(1), 
credit check flag char(1), 
new customer ind char(1), 
web order flag char(1) ); 


comment on table sales order attribute dim is ' 杂 项 维度 表 ' 


-- 生成 杂项 维度 数据 ， 共 插入 16 条 记录 
insert into sales order attribute dim values (1, 'n', 'n', 'n', 'n'); 
insert into sales order attribute dim values (2, 'n', 'n', 'n', 'y'); 
insert into sales order attribute dim values (3, 'n', 'n', 'y', 'n'); 
insert into sales order attribute dim values (4, 'n', 'n', 'y', 'y'); 
insert into sales order attribute dim values (5, 'n', 'y', 'n', 'n'); 
insert into sales order attribute dim values (6, 'n', 'y', 'n', 'y'); 
insert into sales order attribute dim values (7, 'n', 'y', 'y', 'n'); 
insert into sales order attribute dim values (8, 'n', 'y', 'y', 'y'); 
insert into sales order attribute dim values (9, 'y', 'n', 'n', 'n'); 
insert into sales order attribute dim values (10, 'y', 'n', 'n', 'y'); 
insert into sales order attribute dim values (11, 'y', 'n', 'y', 'n'); 
insert into sales order attribute dim values (12, 'y', 'n', 'y', 'y'); 
insert into sales order attribute dim values (13, 'y', 'y', 'n', 'n'); 
insert into sales order attribute dim values (14, 'y', 'y', 'n', 'y'); 
voe Eton. ypun nda 
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insert into sales_order_attribute_dim values (15, ' 
insert into sales order attribute dim values (16, ' 


-- 建立 杂项 维度 外 键 

alter table sales_order_fact add column sales_order_attribute_sk int default 
null; 

comment on column sales order fact.sales order attribute sk is ' 杂 项 维度 代理 键 


4. 修改 定期 数据 装载 函数 
由 于 有 了 一 个 新 的 维度 表 ， 必 须 修改 定期 数据 装载 函数 。 下 面 显示 了 修改 后 的 
fn regular load 函数 〈 只 列 出 修改 的 部 分 ) 。 
create or replace function fn_regular_load () 


returns void as $$ 
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g.sales order attribute sk 
from rds.sales order a, 

v customer dim his c, 

v product dim his d, 

date dim e, 

date dim f, 

sales order attribute dim g, 

rds.cdc time h 

where a.customer number = c.customer number 
and a.order date »- c.effective date 
and a.order date « c.expiry date 
and a.product code - d.product code 
and a.order date »- d.effective date 
and a.order date « d.expiry date 
and date(a.order date) - e.date 
and date(a.request delivery date) - f.date 
and a.verification ind - g.verification ind 
and a.credit check flag - g.credit check flag 
and a.new customer ind - g.new customer ind 
and a.web order flag - g.web order flag 
and a.entry date >= h.last load and a.entry date « h.current load; 
-- 分 析 tds 模式 的 表 


-- 更 新 时 间 截 表 的 last_load 字段 


end; $$ 

language plpgsql; 

函数 做 了 以 下 两 点 修改 : 

€ ŽA rds.sales_order 时 增加 了 四 个 杂项 属性 。 

© 装载 事实 表 时 , 关联 了 sales order attribute dim 维度 表 , 为 事实 表 中 装载 杂项 维度 代 

理 键 。 

杂项 属性 维度 数据 已 经 预 装载 , 所 以 在 定期 装载 脚本 中 只 需要 修改 处 理事 实 表 的 部 分 。 源 
数据 中 有 四 个 属性 列 , 而 事实 表 中 只 对 应 一 列 , 因此 需要 使 用 四 列 关 联 条 件 的 组 合 确定 杂项 维 
度 表 的 代理 键 值 ， 并 装载 到 事实 表 中 。 

5. 测试 

(1) 准备 测试 数据 
执行 下 面 的 语句 添加 8 个 销售 订单 。 


use source; 
drop table if exists temp_sales order data; 
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create table temp sales order data as select * from sales order where 1-0; 


set 8start date := unix timestamp(date add(current date, interval -1 day)); 


set @end_ date := unix timestamp (current_date); 


set Gorder date := from unixtime(G8start date + rand() * (eend date - 
Gstart date)); 

set Grequest delivery date := 
from unixtime(unix timestamp(date add(current date, interval 5 day)) * rand() * 
86400) ; 

set @amount := floor(1000 + rand() * 9000); 

set @quantity := floor(10 + rand() * 90); 


insert into temp sales order data 
values (1, 1, 1, 'y', 'y', 'n', 'y', @order date, Grequest delivery date, 


@order date, @amount, @quantity); 
… 一 共 添 加 各 种 属性 组 合 的 八条 记录 … 


insert into sales order 
select null, customer number, product code, verification ind, 
credit check flag, new customer ind, web order flag, order date, 
request delivery date, entry date, order amount, order quantity 
from temp sales order data t1 
order by tl.order date; 


commit; 
(2) 执行 定期 装载 函数 并 查看 结果 

~/regular etl.sh 

可 以 使 用 下 面 的 分 析 性 查询 确认 装载 是 否 正 确 。 该 查询 分 析出 检查 了 信用 状态 的 新 用 户 所 
占 的 比例 。 

select round (cast (checked as float) / (checked + not checked) * 100)||' % ' 
from 

(select sum(case when credit check flag-'y' then 1 else 0 end) checked, 
sum(case when credit check flag-'n' then 1 else 0 end) not checked from 
sales order fact a, sales order attribute dim b 


where new customer ind = 'y' 


and a.sales order attribute sk = b.sales order attribute sk) t; 


查询 结果 如 下 。 
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75% 
(1 row) 


16.7 维度 合并 


有 一 种 合并 维度 的 情况 , 就 是 本 来 属性 相同 的 维度 , 因为 某 种 原因 被 设计 成 重复 的 维度 属 
性 。 随 着 数据 仓库 中 维度 的 增加 ,我 们 会 发 现 有 些 通 用 的 数据 存在 于 多 个 维度 中 。 例如， 在 销 
售 订单 示例 中 ， 客 户 维度 的 客户 地 址 相关 信息 、 送 货 地 址 相关 信息 里 都 有 邮编 、 城 市 和 省 份 。 
下 面 说 明 如 何 把 客户 维度 里 的 两 个 邮编 相关 信息 合并 到 一 个 新 的 维度 中 。 


1. 修改 数据 仓库 表 结构 


为 了 合并 维度 ， 需 要 改变 数据 仓库 表 结 构 。 图 16-5 显示 了 修改 后 的 结构 。 新 增 了 一 个 
zip code dim 邮编 信息 维度 表 ，sales_order_fact 事实 表 的 结构 也 做 了 相应 的 修改 。 
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16-5 合并 邮编 信息 维度 
zip code dim 维度 表 与 销售 订单 事实 表 相 关联 。 这 个 关系 替换 了 事实 表 与 客户 维度 的 关 
系 。sales_order fact 表 需 要 两 个 关系 , 一 个 关联 到 客户 地 址 邮编 , 另 一 个 关联 到 送 货 地 址 邮编 ， 
相应 地 增加 了 两 个 外 键 字段 。 假 设 邮 编 相关 信息 不 会 修改 ， 因 此 zip code dim 表 中 没有 是 否 
删除 、 版 本 号 、 生 效 日 期 等 SCD 属性 。 
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面 的 语句 用 于 修改 数据 仓库 模式 ， 所 做 的 修改 如 下 : 


F 
@ ”创建 邮编 维度 表 zip code dim. 

e ”初始 装载 邮编 相关 数据 。 

€ 创建 V_customer zip code dim 和 v_shipping zip code dim 视图 。 

€ sales order fact 表 上 增加 customer zip code sk 和 shipping zip code sk 7]. 
@ 基于 已 有 的 客户 邮编 和 送 货 邮 编 初 始 装 载 两 个 邮编 代理 键 。 

€ Æ customer dim 表 上 删除 客户 和 送 货 邮编 以 及 他 们 的 城市 和 州 列 。 

€ 在 pa customer dim 上 删除 客户 的 城市 、 州 和 邮编 列 。 


set search path=tds; 


-- 建立 邮编 维度 表 

create table zip code dim 
(zip_code_sk serial, 
zip_code int, 

city varchar (30), 

state varchar(2) ); 


comment on table zip code dim is ' 邮 编 维度 表 ' ; 


-- 初始 装载 邮编 相关 数据 
insert into zip code dim (zip code, city, state) 
select distinct * 
from (select customer zip code, customer city, customer state 
from customer dim 
where customer zip code is not null 
union all 
select shipping zip code, shipping city, shipping state 
from customer dim 


where shipping zip code is not null) t1; 


-- 创建 视图 

create view v_customer_zip code dim 

(customer zip code sk, customer zip code, customer city, customer state) as 
select * from zip code dim; 


create view v shipping zip code dim 
(shipping zip code sk, shipping zip code, shipping city, shipping state) as 


select * from zip code dim; 


-- 添加 邮编 代理 键 


alter table sales order fact add column customer zip code sk int default null; 
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alter table sales order fact add column shipping zip code sk int default null; 


-- 初始 装载 两 个 邮编 代理 键 


create table sales order fact bak as select * from sales order fact; 
truncate table sales order fact; 


insert into sales order fact 
select tl.order number, tl.customer sk, tl.product sk, tl.order date sk, 
tl.year month, tl.order amount, tl.order quantity, 
tl.request delivery date sk, tl.sales order attribute sk, 
t2.customer zip code sk, t3.shipping zip code sk 
from sales order fact bak t1 
left join 
(select a.order number order number, 
c.customer zip code sk customer zip code sk 
from sales order fact bak a, 
customer dim b, 
v customer zip code dim c 
where a.customer sk - b.customer sk 
and b.customer zip code - c.customer zip code) t2 
on tl.order number = t2.order number 
left join 
(select a.order number order number, 
c.shipping zip code sk shipping zip code sk 
from sales order fact bak a, 
customer dim b, 
v shipping zip code dim c 
where a.customer sk = b.customer sk 
and b.shipping zip code - c.shipping zip code) t3 
on tl.order number - t3.order number; 


drop table sales order fact bak; 


-- 在 customer_dim 和 Pa_customer_dim 表 上 删除 客户 和 送 货 邮 编 以 及 他 们 的 城市 和 州 列 .alter 
table customer dim drop column customer zip code cascade; 

alter table customer dim drop column customer city; 

alter table customer dim drop column customer state; 

alter table customer dim drop column shipping zip code; 

alter table customer dim drop column shipping city; 

alter table customer dim drop column shipping state; 


alter table pa customer dim drop column customer zip code; 
alter table pa customer dim drop column customer city; 
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alter table pa_customer_dim drop column customer_state; 
alter table pa customer dim drop column shipping zip code; 
alter table pa customer dim drop column shipping city; 
alter table pa customer dim drop column shipping state; 


-- 重建 相关 视图 
create or replace view v_customer_dim latest as 
select customer_sk, customer_number, customer_name, customer_street_address, 
version, effective date, shipping address 
from (select distinct on (customer number) customer number, customer sk, 
customer name, customer street address, isdelete, version, 
effective date, shipping address 
from customer dim 
order by customer number, customer sk desc) as latest 
where isdelete is false; 


create or replace view v customer dim his as 
select *, date(lead(effective date,1,date '2200-01-01') over (partition by 
customer number order by effective date)) expiry date 


from customer dim; 


create or replace view v pa customer dim latest as 
select customer sk, customer number, customer name, customer street address, 
version, effective date, shipping address 
from (select distinct on (customer number) customer number, customer sk, 
customer name, customer street address, isdelete, version, 
effective date, shipping address 
from pa customer dim 
order by customer number, customer sk desc) as latest 
where isdelete is false; 


create or replace view v pa customer dim his as 
select *, date(lead(effective date,1,date '2200-01-01') over (partition by 
customer number order by effective date)) expiry date 
from pa customer dim; 


说 明 : 

@ 邮编 维度 的 初始 数据 是 从 客户 维度 表 中 来 ， 这 只 是 为 了 演示 数据 装载 的 过 程 。 客户 的 
邮编 信息 很 可 能 履 盖 不 到 所 有 邮编 ， 所 以 更 好 的 方法 是 装载 一 个 完整 的 邮编 信息 表 。 
由 于 客户 地 址 和 送 货 地 址 可 能 存在 交叉 的 情况 ， 因 此 使 用 distinct 去 重 。 送 货 地 址 的 
三 个 字段 是 后 加 的 ， 在 此 之 前 数据 的 送 货 地 址 为 空 ， 邮 编 维度 表 中 不 能 含有 NULL 
值 ， 所 以 要 加 上 where shipping zip code is not null 过 小 条 件 去 除 邮 编 信 息 为 NULL 
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的 数据 行 。 

e ”基于 邮编 维度 表 创建 客户 邮编 和 送 货 邮编 视图 , 分别 用 作 两 个 地 理 信息 的 角色 扮演 维度 。 

€ ”把 数据 备份 表 sales order fact bak 中 的 数据 装载 回 销售 订单 事实 表 , 同 时 需要 关联 两 
个 邮编 角色 维度 视图 ， 查询 出 两 个 代理 键 ,装载 到 事实 表 中 。 注 意 老 的 事实 表 与 新 的 
邮编 维度 表 是 通过 客户 维度 表 关 联 起 来 的 ， 所 以 在 子 查询 中 需要 三 表 连 接 ， 然 后 用 两 个 
左 外 连接 查询 出 所 有 原 事实 表 数 据 ， 装 载 到 新 的 增加 了 邮编 维度 代理 键 的 事实 表 中 。 

€ 在 customer dim 和 pa_customer dim 表 上 删除 列 时 ， 需 要 使 用 cascade 子 句 同时 删除 
依赖 它 的 视图 ， 之 后 重建 相关 视图 。 

2. 修改 定期 数据 装载 函数 

定期 装载 函数 有 三 个 地 方 的 修改 : 

e 删除 客户 维度 装载 里 所 有 邮编 信息 相关 的 列 , 因 为 客户 维度 里 不 再 有 客户 邮编 和 送 货 
邮编 相关 信息 。 

e 在 事实 表 中 引用 客户 邮编 视图 和 送 货 邮 编 视图 中 的 代理 键 。 

€ ”修改 pa customer dim 装载 ， 因 为 需要 从 销售 订单 事实 表 的 customer zip code sk 获 
取 客 户 邮编 。 

修改 后 的 fn. regular load 函数 如 下 《只 列 出 修改 的 部 分 ) 。 

create or replace function fn regular load () 


returns void as $$ 
declare 


-- 设置 scd 的 生效 时 间 


begin 
-- 分 析 外 部 表 


-- 将 外 部 表 数 据 装 载 到 原始 数据 表 
-- 分 析 rds 模式 的 表 
-- 设置 cdc 的 上 限时 间 
-- 装载 客户 维度 
-- 只 需要 注意 去 掉 邮 编 信息 的 六 个 字段 ， 别 的 逻辑 没 变 
-- 装载 产品 维度 
-- 装载 销售 订单 事实 表 
insert into sales order fact 
select a.order number, 
customer sk, 


product sk, 
e.date sk, 
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e.year * 100 + e.month, 
order amount, 
order quantity, 
f.date sk, 
g.sales order attribute sk, 
h.customer zip code sk, 
i.shipping zip code sk 
from rds.sales order a, 
v customer dim his c, 
v product dim his d, 
date dim e, 
date dim f, 
sales order attribute dim g, 
v customer zip code dim h, 
v shipping zip code dim i, 
rds.customer j, 
rds.cdc time k 
where a.customer number = c.customer number 
and a.order date »- c.effective date 
and a.order date « c.expiry date 
and a.product code - d.product code 
and a.order date »- d.effective date 
and a.order date « d.expiry date 
and date(a.order date) - e.date 
and date(a.request delivery date) - f.date 
and a.verification ind - g.verification ind 
and a.credit check flag - g.credit check flag 
and a.new customer ind - g.new customer ind 
and a.web order flag - g.web order flag 
and a.customer number - j.customer number 
and j.customer zip code - h.customer zip code 
and j.shipping zip code i.shipping zip code 
and a.entry date >= k.last load and a.entry date « k.current load; 
-- ER PA 客户 维度 
truncate table pa customer dim; 
insert into pa customer dim 
select distinct a.* 
from customer dim a, 
sales order fact b, 
v customer zip code dim c 
where c.customer state - 'pa' 
and b.customer zip code sk - c.customer zip code sk 
and a.customer sk - b.customer sk; 


-- 分 析 tds 模式 的 表 
-- 更 新 时 间 惟 表 的 last load 字段 
end; $$ 


language plpgsql; 
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上 面 的 函数 需要 注意 两 个 地 方 。 装 载 事实 表 数据 时 ， 除 了 关联 两 个 邮编 维度 视图 外 , 还 要 
关联 过 渡 区 的 rds.customer 表 。 这 是 因为 要 取得 邮编 维度 代理 键 ， 必 须 连接 邮编 代码 字段 ， 而 
邮编 代码 已 经 从 客户 维度 表 中 删除 ， 只 有 在 源 数 据 的 客户 表 中 保留 。 第 二 个 是 PA 子 维度 的 装 
载 。 州 代码 已 经 从 客户 维度 表 删 除 , 被 放 到 了 新 的 邮编 维度 表 中 , 而 客户 维度 和 邮编 维度 并 没 
有 直接 关系 ， 它 们 是 通过 事实 表 的 客户 代理 键 和 邮编 代理 键 产 生 联系 ， 因 此 必须 关联 事实 表 、 
客户 维度 表 、 邮 编 维 度 表 三 个 表 才 能 取出 PA 子 维度 数据 。 这 也 就 是 把 PA 子 维度 的 装载 放 到 
了 事实 表 装 载 之 后 的 原因 。 

3. 测试 

按照 以 下 步骤 测试 修改 后 的 定期 装载 函数 〈 代 码 从 略 ) 。 


(1) 对 源 数 据 的 客户 邮编 相关 信息 做 一 些 修改 。 

(2) 装载 新 的 客户 数据 前 ， 查 询 最 后 的 客户 和 送 货 邮编 ， 后 面 可 以 用 改变 后 的 信息 和 此 
查询 的 输出 作对 比 。 

(3) 新 增 销售 订单 源 数据 。 

(4) 执行 定期 装载 。 

(5) 查询 客户 维度 表 、 销 售 订单 事实 表 和 PA 子 维度 表 ， 确 认 数据 已 经 正确 装载 。 





16.9 分 段 维度 


1. 分 段 维 度 简介 

在 客户 维度 中 ,最 具有 分 析 价值 的 属性 就 是 各 种 分 类 ,这些 属 性 的 变化 范围 比较 大 。 对 某 
个 个 体 客 户 来 说 ， 可 能 的 分 类 属性 包括 : 性 别 、 年 龄 、 民 族 、 职 业 、 收 入 和 状态 ， 例 如 ， 新 客 
户 、 活 跃 客 户 、 不 活跃 客户 、 已 流失 客户 等 。 在 这 些 分 类 属性 中 ， 有 些 能 够 定义 成 包含 连续 值 
的 分 段 ， 如 年 龄 和 收入 这 种 数值 型 的 属性 ， 天 然 就 可 以 分 成 连续 的 数值 区 间 ， 而 像 状态 这 种 描 
述 性 的 属性 ， 可 能 需要 用 户 根据 自己 的 实际 业务 仔细 定义 ， 通 常 定义 的 根据 是 某 种 可 度量 的 数值 。 

组 织 还 可 能 使 用 为 其 客户 打分 的 方法 刻画 客户 行为 。 分 段 维度 模型 通常 以 不 同方 式 按照 积 
分 将 客户 分 类 , 如 基于 他 们 的 购买 行为 、 支 付 行为 、 流 失 走向 等 。 每 个 客户 用 所 得 的 分 数 标记 。 

-个 常用 的 客户 评分 及 分 析 系统 是 考察 客户 行为 的 相关 度 (R) ~ MRE CP) 和 强度 CD, 

该 方法 被 称 为 RFI 方法。 有 时 将 强度 蔡 换 为 消费 度 (M) ， 因 此 也 被 称 为 RFM 度量 。 相 关 度 
是 指 客户 上 次 购买 或 访问 网 站 距 今 的 天 数 。 频 繁 度 是 指 一 段 时 间 内 客户 购买 或 访问 网 站 的 次 
数 , 通常 是 过 去 一 年 的 情况 。 强 度 是 指 客户 在 某 一 固定 时 间 周 期 中 消费 的 总 金额 。 在 处 理 大 型 
客户 数据 时 ， 某 个 客户 的 行为 可 以 按照 如 图 16-6 所 示 的 RFI 多 维 数据 仓库 建 模 。 在 此 图 中 ， 
每 个 维度 形成 一 条 数 轴 ， 某 个 轴 的 积分 度量 值 从 1 ~ 5， 代 表 某 个 分 组 的 实际 值 ， 三 条 数 轴 组 
合 构成 客户 积分 立方 体 ， 每 个 客户 的 积分 都 在 这 个 立方 体 之 中 。 
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图 16-6 RFI SLI 


定义 有 意义 的 分 组 非常 重要 。 应 该 由 业务 人 员 和 数据 仓库 开发 团队 共同 定义 可 能 会 利用 的 
行为 标识 ， 更 复杂 的 场景 可 能 包含 信用 行为 和 回报 情况 ， 例 如 定义 如 下 8 个 客户 标识 : 
: 活跃 客户 ， 信 誉 良好 ， 产 品 回报 多 
: 活跃 客户 ， 信 誉 良好 ， 产 品 回报 一 般 
最 近 的 新 客户 ， 尚 未 建立 信誉 等 级 
: 偶尔 出 现 的 客户 ， 信 誉 良好 
: 偶尔 出 现 的 客户 ， 信 誉 不 好 
以 前 的 优秀 客户 ， 最 近 不 常见 
: 只 违 不 买 的 客户 ， 几 乎 没有 效益 
H: 其 他 客户 

至 此 可 以 考察 客户 时 间 序 列 数据 ， 并 将 某 个 客户 关联 到 报表 期 间 的 最 近 分 类 中 。 例 如, 某 
个 客户 在 最 近 10 个 考察 期 间 的 情况 可 以 表示 为 : CCCDDAAABB。 这 一 行为 时 间 序 列 标记 来 
自 于 固定 周期 度量 过 程 ， 观 察 值 是 文本 类 型 的 ， 不 能 计算 或 求 平均 值 ， 但 是 它们 可 以 被 查询 。 
如 可 以 发 现在 以 前 的 第 5 个 、 第 4 个 或 第 3 个 周期 中 获得 A, 且 在 第 2 个 或 第 1 个 周期 中 获得 
B 的 所 有 客户 。 通 过 这 样 的 进展 分 析 还 可 以 发 现 那些 可 能 失去 的 有 价值 的 客户 , 进而 用 于 提高 
产品 回报 率 。 

行为 标记 可 能 不 会 被 当成 普通 事实 存储 , 因为 它 虽 然 由 事实 表 的 度量 所 定义 , 但 其 本 身 不 
是 度量 值 。 行为 标记 的 主要 作用 在 于 为 前 面 描述 的 例子 制定 复杂 的 查询 模式 。 推 荐 的 处 理 行为 
标记 的 方法 是 为 客户 维度 建立 分 段 属性 的 时 间 序 列 。 这 样 BI 接口 比较 简单 ， 因 为 列 都 在 同一 
个 表 中 , 性 能 也 较 好 ,因为 可 以 对 它们 建立 时 间 惟 索引。 除了 为 每 个 行为 标记 时 间 周 期 建立 不 
同 的 列 ， 建 立 单一 的 包含 多 个 连续 行为 标记 的 连接 字符 串 ， 也 是 较 好 的 一 种 方法 ， 例 如 ， 
CCCDDAAABB。 该 列 支 持 通配符 模糊 搜索 模式 ,“D 后 紧 跟 着 B” 可 以 简单 实现 为 “where flag 
like '%DB%'” . 


2. 销售 订单 分 段 维度 
下 面 以 销售 订单 为 例 ， 说 明 分 段 维度 的 实现 技术 。 分 段 维度 包含 连续 的 分 段 度量 值 。 年 度 
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销售 订单 分 段 维度 可 能 包含 有 叫做 “ 低 ” “中 ”“ 高 ”的 三 个 档次 ， 各 档 定义 分 别 为 消费 额 在 
0.01 到 3000、3000.01 到 6000.00、6000.01 到 99999999.99 区 间 。 如 果 一 个 客户 的 年 度 销 售 订 
单 金额 累计 为 1000， 则 被 归 为 “ 低 ” 档 。 分 段 维度 可 以 存储 多 个 分 段 集合 ， 可 能 有 一 个 用 于 
促销 分 析 的 分 段 集合 ， 另 一 个 用 于 市 场 细 分 ， 可 能 还 有 一 个 用 于 销售 区 域 计 划 。 分 段 一 般 由 用 
户 定义 ， 而 且 很 少 能 从 源 事务 数据 直接 获得 。 


(1) 年 度 销售 订单 多 维 模型 

为 了 实现 年 度 订 单 分 段 维度 ， 我 们 需要 两 个 新 的 多 维 模型 ， 如 图 16-7 所 示 。 第 一 个 星 型 
模式 由 annual sales order fact 事实 表 、customer_dim 维度 表 构 成 。 年 度 销售 额 事实 表 存储 客 
户 一 年 的 消费 总 额 ， 数 据 从 现 有 的 销售 订单 事实 表 汇 总 而 来 。 第 二 个 星 型 模式 由 
annual_customer_segment_fact 事实 表 、annual_order_segement_dim 维度 表 、customer_dim 维度 
表 构 成 。 客 户 年 度 分 段 事 实 表 中 没有 度量 ,只 有 来 自 两 个 相关 维度 表 的 代理 键 , 因此 它 是 一 个 
无 事实 的 事实 表 , 存储 的 数据 实际 上 就 是 前 面 所 说 的 行为 标记 时 间 序 列 。17.3 节 将 详细 讨论 无 
事实 事实 表 技 术 。 年 度 订单 分 段 维度 表 用 于 存储 分 段 的 定义 ,在 本 例 中 ， 它 只 与 年 度 分 段 事实 
表 有 关系 。 
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annual order segment dim | customer dim 
Spi» 










customer sk 
customer number 
j—| customer name 
customer street address 
isdelete 

version 
effective date 
shipping address 


segment name 














effective date 




















annual sales order fact 
Year 
annual sales order fact 











图 16-7 “年 度 销售 额 分 段 维度 
如 果 多 个 分 段 的 属性 相同 , 可 以 将 它们 存储 到 单一 维度 表 中 , 因为 分 段 通常 只 有 很 小 的 基 
数 。 本 例 中 annual order segment dim 表 存 储 了 “project” 和 “grid” 两 种 分 段 集合 ， 它 们 都 
是 按照 客户 的 年 度 销售 订单 金额 将 其 分 类 。 分 段 维 度 按 消 费 金额 的 定义 如 表 16-3 所 示 , project 
分 六 段 ，grid 分 三 段 。 
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X163 ”客户 年 度 消费 分 段 维度 定义 





























分 段 类 别 分 段 名 称 开始 值 结束 值 
Project Bottom 0.01 2500.00 
Project Low 2500.01 3000.00 
Project mid-low 3000.01 4000.00 
Project 4000.00 5500.00 
Project 5500.01 6500.00 
Project 6500.01 99999999.99 
Grid 0.01 3000.00 
Grid Mid 3000.01 6000.00 
Grid High 6000.01 99999999.99 











每 一 分 段 有 一 个 开始 值 和 一 个 结束 值 。 分 段 的 粒度 就 是 本 段 和 下 段 之 间 的 间隙 。 粒度 必 须 
是 度量 的 最 小 可 能 值 ,在 销售 订单 示例 中 , 金额 的 最 小 值 是 0.01。 最 后 一 个 分 段 的 结束 值 是 名 
售 订单 金额 可 能 的 最 大 值 。 下面 的 语句 用 于 建立 分 段 维 度 。 新 建 了 三 个 表 , 分 别 是 分 段 维度 表 、 
年 度 销售 事实 表 和 年 度 客户 消费 分 段 事实 表 , 并 向 分 段 维度 表 插 入 9 条 分 段 定义 数据 。 假设 分 
段 维度 表 需 要 SCD 处 理 ， 于 是 该 表 有 删除 标志 、 版 本 号 、 生 效 日 期 等 附加 属性 ， 并 建立 了 该 
表 的 当前 视图 和 历史 视图 。 


set search_path=tds; 








-- 建立 分 段 维度 表 
create table annual order segment dim ( 
segment sk serial, 
segment name varchar(30), 
band name varchar(50), 
band start amount numeric(10,2), 
band end amount numeric(10,2), 
isdelete boolean default false, 
version int default 1, 
effective date date default current date ); 


-- 添加 分 段 定 义 数据 

insert into annual order segment dim 

(segment name, band name, band start amount, band end amount) 
values ('project', 'bottom', 0.01, 2500.00), 

('project', 'low', 2500.01, 3000.00), 

('project', 'mid-low', 3000.01, 4000.00), 

('project', 'mid', 4000.01, 5500.00), 

('project', 'mid high', 5500.01, 6500.00), 
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(‘project', 'top', 6500.01, 99999999.99), 
('grid', 'low', 0.01, 3000), 

('grid', 'med', 3000.01, 6000.00), 
('grid', 'high', 6000.01, 99999999.99); 


-- 建立 分 段 维度 当前 视图 
create or replace view v annual order segment dim latest as 
Select segment sk, segment name, band name, band start amount, 
band end amount, version, effective date 
from (select distinct on (segment name, band name) segment sk, segment name, 
band name, band start amount, band end amount, isdelete, 
version, effective date 
from annual order segment dim 
order by segment name, band name, segment sk desc) as latest 


where isdelete is false; 


-- 建立 分 段 维度 历史 视图 

create or replace view v annual order segment dim his as 

select *, date(lead(effective date,1,date '2200-01-01') over (partition by 
segment name, band name order by effective date)) expiry date 


from annual order segment dim; 


-- 建立 年 度 销售 订单 事实 表 

create table annual_sales order fact ( 
customer_sk int, 
year int, 
annual_order_amount numeric(10,2) ); 


-- 建立 年 度 销售 订单 分 段 事实 表 

create table annual customer segment fact ( 
segment_sk int, 
customer_sk int, 
year int ); 


(20 初始 装载 
执行 下 面 的 语句 初始 装载 分 段 相 关 数 据 。 


insert into annual sales order fact 
select customer sk, 
year month/100, 
sum(order amount) 
from sales order fact 
where year month/100 « 2017 
group by customer sk, year month/100; 
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insert into annual customer segment fact 
select d.segment sk, 
a.customer sk, 
a.year 
from annual sales order fact a, 
v annual order segment dim latest d 
where annual order amount »- band start amount 
and annual order amount «- band end amount; 


因为 装载 过 程 不 能 导入 当年 的 数据 ， 所 以 使 用 year < 2017 过 滤 条 件 。 这 里 是 按 客 户 代理 
键 customer sk 分 组 求 和 来 判断 分 段 ， 实 际 情况 可 能 是 以 customer number 进行 分 组 的 ， 因 为 
无 论 客户 的 SCD 属性 如 何 变化 ， 一 般 还 是 认为 是 一 个 客户 。 将 年 度 销售 事实 表 里 与 分 段 维度 
表 关 联 ， 把 客户 、 分 段 维度 的 代理 键 插入 年 度 客户 消费 分 段 事实 表 。 注 意 ， 数 据 装 载 过 程 中 并 
没有 引用 客户 维度 表 ， 因 为 客户 代理 键 可 以 直接 从 销售 订单 事实 表 得 到 。 分 段 定 义 中 ,每 个 分 
段 结束 值 与 下 一 分 段 的 开始 值 是 连续 的 , 并 且 分 段 之 间 不 存在 数据 重 芝 , 所 以 装载 分 段 事实 表 
时 ， 订 单 金额 判断 条 件 两 端 都 使 用 闭 区 间 。 

执行 初始 装载 脚本 后 ， 使 用 下 面 的 语句 查询 客户 分 段 事 实 表 ， 确 认 装 载 的 数据 是 正确 的 。 


select csk, y, amt, string agg(sn||':'|l|bn,' / ') 
from (select a.customer sk csk, a.year y, annual order amount amt, 
Segment name sn, band name bn 
from annual customer segment fact a, 
v annual order segment dim latest b, 
annual sales order fact c 
where a.segment sk - b.segment sk 
and a.customer sk - c.customer sk 
and a.year - c.year) t 
group by csk, y, amt 
order by y, amt desc; 


(3) 定期 装载 
定期 装载 与 初始 装载 类 似 。 年 度 销售 事实 表 里 的 数据 被 导入 分 段 事 实 表 。 每 年 调度 执行 下 
面 的 定期 装载 脚本 ， 此 脚本 装载 前 一 年 的 销售 数据 。 
insert into annual sales order fact 
select customer sk, year month/100, sum(order amount) 
from sales order fact 


where year month/100 - extract(year from current date) - 1 
group by customer sk, year month/100; 





insert into annual customer segment fact 
select b.segment sk, a.customer sk, a.year 
from annual sales order fact a, 
v annual order segment dim latest b 
where a.year = extract(year from current date) - 1 
and annual order amount >= band start amount 
and annual order amount «- band end amount; 
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16.9 ne 


修改 数据 仓库 模式 时 ， 要 注意 空 值 的 处 理 ， 必 要 时 使 用 coalesce 函数 将 null 转换 为 常量 。 
子 维度 通常 有 包含 属性 子 集 的 子 维度 和 包含 行 子 集 的 子 维度 两 种 , 常用 视图 实现 。 单 个 物理 维 


RET BEA 





有 实 表 多 次 引用 , 每 个 引用 连接 逻辑 上 存在 差异 的 角色 扮演 维度 。 视图 和 表 别 名 是 实 


现 角 色 扮 演 维度 的 两 种 常用 方法 。 处 理 层 次 维度 时 ， 经 常 使 用 grouping. grouping sets 等 函数 
或 语句 。 除了 业务 主键 外 没有 其 他 内 容 的 维度 表 通 常 是 退化 维度 将 业务 主键 作为 一 个 属性 加 
入 到 事实 表 中 是 处 理 退 化 维度 的 适当 方式 。 杂 项 维度 是 一 种 包含 的 数据 具有 很 少 可 能 值 的 维 
度 。 有 时 与 其 为 每 个 标志 或 属性 定义 不 同 的 维度 ,不 如 建立 单独 的 、 将 不 同 维度 合并 到 一 起 的 
杂项 维度 表 。 如 果 几 个 相关 维度 的 基数 都 很 小 , 或 者 具有 多 个 公共 属性 时 ， 可 以 考虑 将 它们 进 
行 维度 合并 。 分 段 维度 的 定义 中 包含 连续 的 分 段 度量 值 , 通常 用 作客 户 维度 的 行为 标记 时 间 序 
列 ， 分 析 客 户 行为 。 
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发 生 在 业务 系统 中 的 操作 型 事务 ， 其 所 产生 的 可 度量 数值 ， 存 储 在 事实 表 中 ， 从 最 细节 粒 
度 级 别 看 ， 事 实 表 和 操作 型 事务 表 的 数据 有 一 一 对 应 的 关系 。 因 此 ， 数 据 仓 库 中 事实 表 的 设计 
应 该 依赖 于 业务 系统 ,而 不 受 可 能 产生 的 最 终 报表 影响 。 除 数字 类 型 的 度量 外 , 事实 表 总 是 包 
含 所 引用 维度 表 的 外 键 , 也 能 包含 可 选 的 退化 维度 键 或 时 间 戳 。 数 据 分 析 的 实质 就 是 基于 事实 
表 开展 计算 和 聚合 操作 。 

事实 表 中 的 数字 度量 值 可 划分 为 可 加 、 半 可 加 、 不 可 加 三 类 。 可 加 性 度量 可 以 按照 与 事实 
表 关 联 的 任意 维度 汇总 , 就 是 说 按 任何 维度 汇总 得 到 的 度量 和 是 相同 的 , 事实 表 中 的 大 部 分 度 
量 属于 此 类 。 半 可 加 度量 可 以 对 某 些 维度 汇总 , 但 不 能 对 所 有 维度 汇总 。 余额 是 常见 的 半 可 加 
度量 ， 除 时 间 维 度 外 ， 它 们 可 以 跨 所 有 维度 进行 加 法 操作 。 另 外 还 有 些 度量 是 完全 不 可 加 的 ， 
例如 比例 。 对 非 可 加 度量 ， 较 好 的 处 理 方法 是 尽 可 能 存储 构成 非 可 加 度量 的 可 加 分 量 ， 如 构成 
比例 的 分 子 和 分 母 , 并 将 这 些 分 量 汇总 到 最 终 的 结果 集合 中 , 而 对 不 可 加 度量 的 计算 通常 发 生 
在 BI 层 或 OLAP JZ. 

事实 表 中 可 以 存在 空 值 度量 。 所 有 聚合 函数 ， 如 sum. count, min, max, avg 等 均 可 针 
对 空 值 度量 计算 , 其 中 sum、count( 字 段 名 )、min、max、avg 会 忽略 空 值 , 而 count(1) 或 count(*) 
在 计数 时 会 将 空 值 包含 在 内 。 然而 , 事实 表 中 的 外 键 不 能 存在 空 值 ， 否则 会 导致 违反 参照 完整 
性 的 情况 发 生 。 关 联 的 维度 表 必 须 用 默认 代理 键 而 不 是 空 值 表 示 未 知 的 条 件 。 

很 多 情况 下 数据 仓库 需要 装载 如 下 三 种 不 同类 型 的 事实 表 。 


© 事务 事实 表 : 以 每 个 事务 或 事件 为 单位 ， 例 如 一 个 销售 订单 记录 、 一 笔 转账 记录 等 ， 
作为 事实 表 里 的 一 行 数据 . 这 类 事实 表 可 能 包含 精确 的 时 间 蕉 和 退化 维度 键 ， 其 度量 
值 必须 与 事务 粒度 保持 一 致 。 销 售 订单 数据 仓库 中 的 sales order fact 表 就 是 事务 事 
实 表 。 

© ”周期 快照 事实 表 : 这 种 事实 表 里 并 不 保存 全 部 数据 ， 只 保存 固定 时 间 间 隔 的 数据 ， 例 
如 每 天 或 每 月 的 销售 额 ， 或 每 月 的 账户 余额 等 。 

© ”累积 快照 事实 表 : 累积 快照 用 于 跟踪 事实 表 的 变化 . 例如 ， 数据 仓库 可 能 需要 累积 或 
存储 销售 订单 ， 从 下 订单 的 时 间 开 始 , 到 订单 中 的 商品 被 打包 、 运输 和 到 达 的 各 阶段 
的 时 间 点 数据 来 跟踪 订单 生命 周期 的 进展 情况 。 当 这 个 过 程 进行 时 , 随 着 以 上 各 种 时 
间 的 出 现 ， 事 实 表 里 的 记录 也 要 不 断 更 新 。 
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17.1 周期 快照 


1. 周期 快照 简介 

周期 快照 事实 表 中 的 每 行 汇总 了 发 生 在 某 一 标准 周期 ， 如 一 天 、 一 周 或 一 月 的 多 个 度量 。 
其 粒度 是 周期 性 的 时 间 段 ， 而 不 是 单个 事务 。 周 期 快照 事实 表 通 常 包含 许多 数据 的 总 计 ， 因 为 
任何 与 事实 表 时 间 范 围 一致 的 记录 都 会 被 包含 在 内 。 在 这 些 事实 表 中 ， 外 键 的 密度 是 均匀 的 ， 
因为 即使 周期 内 没有 活动 发 生 ， 通 常 也 会 在 事实 表 中 为 每 个 维度 插入 包含 0 或 空 值 的 行 。 

周期 快照 在 一 个 给 定 的 时 间 对 事实 表 进行 一 段 时 期 的 总 计 。 有 些 数据 仓库 用 户 , 尤其 是 业 
务 管理 者 或 者 运营 部 门 , 经 常 要 看 某 个 特定 时 间 点 的 汇总 数据 。 下 面 在 示例 数据 仓库 中 创建 一 
个 月 销售 订单 周期 快照 ， 用 于 按 产 品 统计 每 个 月 总 的 销售 订单 金额 和 产品 销售 数量 。 


2. 建立 周期 快照 表 


假设 需求 是 要 按 产 品 统计 每 个 月 的 销售 金额 和 销售 数量 。 单 从 功能 上 看 , 此 数据 能 够 从 事 
务 事实 表 中 直接 查询 得 到 。 例 如 ， 要 取得 2017 年 5 月 的 销售 数据 ， 可 使 用 下 面 的 查询 : 
select b.month sk, a.product sk, sum(order amount), sum(order quantity) 
from sales order fact a, 
month dim b, 
v order date dim d 
where a.order date sk - d.order date sk 
and b.month - d.month 
and b.year - d.year 
and b.month - 5 
and b.year - 2017 
group by b.month sk, a.product sk ; 


只 要 将 年 、 月 参数 传递 给 这 条 查询 语句 ， 就 可 以 获得 任何 年 月 的 统计 数据 。 但 即便 是 在 如 
此 简单 的 场景 下 ， 我 们 仍然 需要 建立 独立 的 周期 快照 事实 表 。 事 务 事实 表 的 数据 量 总 会 很 大 ， 
如 果 每 当 需 要 月 销售 统计 数据 时 , 都 从 最 细 粒 度 的 事实 表 查 询 , 那么 性 能 将 会 差 到 不 堪 忍 受 的 
EE. 再 者 ， 月 统计 数据 往往 只 是 下 一 步 数 据 分析 的 输入 信息 ， 有 时 把 更 复杂 的 逻辑 放 到 一 个 
单一 的 查询 语句 中 效率 会 更 差 。 因此 ,好 的 做 法 是 将 事务 型 事实 表 作 为 一 个 基石 事实 数据 ， 以 
此 为 基础 ， 向 上 逐 层 建立 需要 的 快照 事实 表 。 

新 的 周期 快照 事实 表 中 有 两 个 度量 值 ，month_order_ amount 和 month order quantity. 3X 
两 个 值 是 不 能 加 到 sales order fact 表 中 的 ， 因 为 sales order fact 表 和 新 的 度量 值 有 不 同 的 时 
间 属 性 ， 也 即 数据 的 粒度 不 同 。sales_order_fact 表 包 含 的 是 单一 事务 记录 。 新 的 度量 值 是 每 月 
的 汇总 数据 ， 它 们 是 可 加 的 。 使 用 下 面 的 语句 建立 month end sales order fact 表 。 


set search path=tds; 
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create table month_end_sales order fact ( 


year_month int, 


product_sk bigint, 


month order amount numeric(10,2), 


month order quantity bigint ) 


partition by range (year month) 


( partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 


p201601 
p201602 
p201603 
p201604 
p201605 
p201606 
p201607 
p201608 
p201609 
p201610 
p201611 
p201612 
p201701 
p201702 
p201703 
p201704 
p201705 
p201706 
p201707 
p201708 
p201709 
p201710 
p201711 
p201712 


start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 
start 


(201601) 
(201602) 
(201603) 
(201604) 
(201605) 
(201606) 
(201607) 
(201608) 
(201609) 
(201610) 
(201611) 
(201612) 
(201701) 
(201702) 
(201703) 
(201704) 
(201705) 
(201706) 
(201707) 
(201708) 
(201709) 
(201710) 
(201711) 
(201712) 


inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 
inclusive 


inclusive 


end (201801) exclusive ); 
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comment on table month end sales order fact is ' 月 销售 周期 快照 表 '; 
comment on column month end sales order fact.year month is ' 年 月 '; 


comment on column month end sales order fact.product sk is ' 产 品 代 理 键 '; 


comment on column month end sales order fact.month order amount is ' 销 售 金额 '; 


comment on column month end sales order fact.month order quantity is ' 销 售 数量 '; 


和 销售 订单 事实 表 一 样 ， 月 销售 周期 快照 表 也 以 年 月 做 分 区 。 这 样 做 主要 有 两 点 好 处 : 


© 按 年 月 查询 周期 快照 表 时 ， 可 以 利用 分 区 消除 提高 性 能 。 





e 便于 实现 重复 执行 定期 装载 过 程 。 HAWQ 没有 DELETE 语句 ， 但 是 可 以 单独 清空 分 
区 对 应 的 子 表 。 
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3. 装载 周期 快照 表 

建立 了 month end sales order fact 表 后 ， 现 在 需要 向 表 中 装载 数据 。 实 际 装载 时 ， 月 销 
售 周期 快照 事实 表 的 数据 源 是 已 有 的 销售 订单 事务 事实 表 , 而 不 需要 关联 产品 维度 表 。 之 所 以 
可 以 这 样 做 ， 是 因为 总 是 先 处 理事 务 事实 表 ， 再 处 理 周期 快照 事实 表 ， 并 且 事 务 事实 表 中 的 产 
品 代理 键 就 是 当时 有 效 的 产品 描述 .这 样 做 还 有 一 个 好 处 是 ,不 必要 非 在 1 号 装载 上 月 的 数据 ， 
这 点 在 后 面 修改 工作 流 时 详细 说 明 。 执 行 下 面 的 语句 初始 装载 月 销售 数据 。 


insert into month end sales order fact 





select year month,product sk,sum(order amount),sum(order quantity) 
from sales order fact 


group by year month,product sk; 
fn month sum 函数 用 于 定期 装载 月 销售 订单 周期 快照 事实 表 ， 函 数 定义 如 下 。 


create or replace function tds.fn month sum(p year month int) 
returns void as $$ 
declare 

sqlstring varchar (1000); 
begin 

-- RE, MNR LH EHE 
sqlstring := 'truncate table month end sales order fact 1 prt p' 
|| cast(p year month as varchar); 

execute sqlstring; 


-- 插入 上 月 销售 汇总 数据 
insert into month end sales order fact 
select tl.year month, t2.product sk, coalesce(t2.month order amount,0), 
coalesce(t2.month order quantity, 0) 
from (select year * 100 + month year month 
from month dim 
where year * 100 + month = p year month) t1 
left join (select year month, product sk, 
sum(order amount) month order amount, 
sum(order quantity) month order quantity 
from sales order fact 
where year month - p year month 
group by year month,product sk) t2 
on tl.year month - t2.year month; 


end; $$ 
language plpgsql; 


执行 以 下 语句 装载 上 个 月 的 销售 汇总 数据 。 该 语句 可 重复 执行 ， 汇 总 数据 不 会 重复 累加 。 
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select tds.fn_month_sum(cast (extract (year from current date - interval '1 


month') * 100 + extract(month from current date - interval '1 month') as int)); 
周期 快照 表 的 外 键 密度 是 均匀 的 , 因此 这 里 使 用 外 连接 关联 月 份 维度 和 事务 事实 表 。 BD 
上 个 月 没有 任何 销售 记录 , 周期 快照 中 仍然 会 有 一 行 记录 。 在 这 种 情况 下 ,周期 快照 记录 中 只 
有 年 月 ， 而 产品 代理 键 的 值 为 室 ， 度 量 为 0。 查 询 销售 订单 事实 表 时 可 以 利用 分 区 消除 提高 性 
能 。 每 个 月 给 定 的 任何 一 天 ， 在 每 天 销售 订单 定期 装载 执行 完 后 ， 执 行 甸 month sum 函数 ， 
装载 上 个 月 的 销售 订单 汇总 数据 。 为 此 需要 修改 Oozie 的 工作 流 定义 。 
4. 修改 工作 流 


(1) 修改 Oozie 工作 流 作 业 配 置 文件 
需要 在 15.3 节 中 创建 的 workflow.xml 工作 流 定义 文件 中 增加 月 底 销 售 周期 快照 的 数据 装 
载 部 分 ， 修 改 后 的 文件 内 容 如 下 《〈 只 列 出 增加 的 部 分 ) 。 


<?xml version="1.0" encoding="UTF-8"?> 





<workflow-app xmlns="uri:oozie:workflow:0.4" name="RegularETL"> 
… start BA … 

… fs 节点 E 

e fork 节点 … 

… 三 个 并 行 执行 的 Sqoop 节点 … 

… join 节点 … 

… 执行 定期 装载 的 ssh 节点 … 


<decision name="decision-node"> 
<switch> 
<case to="month-sum"> 
$(date eq '02'} 
</case> 
<default to="end"/> 
</switch> 
</decision> 


<action name="month-sum"> 
<ssh xmlns="uri:oozie:ssh-action:0.1"> 
<host>$ { focusNodeLogin}</host> 
<command>$ {myScript1}</command> 
<capture-output/> 
</ssh> 
<ok to="end"/> 
<error to="fail"/> 
</action> 


… kill 节点 e 
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send WR … 


</workflow-app> 

在 该 配置 文件 中 增加 了 一 个 名 为 decision-node 的 decision 控制 节点 ， 用 来 判断 date 参数 
是 一 个 SSH 动作 节点 , 执行 fn month sum 函数 装载 周期 快照 事实 表 , 成 功 执行 后 转 到 end 节 
点 结束 。 很 明显 ， 本 例 中 decision 节点 的 作用 就 是 控制 在 并 且 只 在 一 个 月 当中 的 某 一 天 执行 周 
期 快照 表 的 数据 装载 ， 其 他 日 期 不 做 这 步 操作 。 之 所 以 这 里 是 '02' 是 为 了 方便 测试 。 


fn month sum 函数 接收 年 月 作为 参数 ， 因 此 不 必要 非得 1 号 执行 ， 任 何 一 天 都 可 以 。 这 个 工 
作 流 定 义 保 证 了 每 月 汇总 只 有 在 每 天 汇总 执行 完 后 才 执行 ， 并 且 每 月 只 执行 一 次 。 工 作 流 的 


DAG 如 图 17-1 所 示 。 


hdfscommands 


A 


sqoop-customer sqoop-product sqoop-sales_order 


Vv 


psqi-node 





















































decision-node month-sum 




















图 17-1 增加 了 周期 快照 装载 的 Oozie 工作 流 


QD 部 署 工作 流 
hdfs dfs -put -f workflow.xml /user/oozie/ 


(3) 在 Falcon process hj ADVANCED OPTIONS 中 增加 属性 
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需要 在 调度 作业 配置 中 增加 myScriptl 和 date 两 个 属性 的 定义 ， 如 图 17-2 所 示 。 











ADVANCED OPTIONS ^. 

Retry Policy 

Type Delay Up to Attempts 

Periodic M 30 minutes M 3 

Performance & Ordering 

Max Parallel Instances Order 

1 M FIFO M 

Properties 

nameNode hdfs:/Imycluster ~ delete 
jobTracker hdp2:8050 - delete. 
queueName default ~ delete 
oozie.use.system libpath true - delete 
oozie wf application. path S(nameNode)/user/oozie - delete 
focusNodeLogin root@hdp2 - delete 
myScript /rooUregular_etl sh - delete 
myScriptt Jrootiregular etl month sh - delete 
date S(coord-formatTime(coord:actualTim | ~ delete + ADD 
Access Control List 


图 17-2. 在 Falcon process ff] ADVANCED OPTIONS 中 增加 属性 


myScriptl 属性 的 值 为 /root/regular_etl_month.sh， 是 调用 psql 的 shell 脚本 文件 。date 属性 
的 值 为 ${coord:formatTime(coord:actualTime(), "dd")}， 用 Oozie 的 系统 函数 取得 工作 流 执行 时 
的 月 中 日 期 。Falcon 调度 执行 工作 流 时 ， 这 些 属性 的 值 会 作为 实 参 传 入 workflow.xml 工作 流 
定义 文件 中 。 

(4) 编写 快照 表 数据 装载 脚本 

/root/regular_etl_month.sh 文件 的 内 容 如 下 。 

#!/bin/bash 

* 使 用 gpadmin 用 户 执行 月 周期 快照 装载 函数 

su - gpadmin -c 'export PGPASSWORD=123456;psql -U dwtest -d dw -h hdp3 -c "set 
search path-tds;select fn month sum(cast(extract(year from current date - 


interval 'V''1 month'\'') * 100 + extract (month from current date - interval 'V''1 
month'V'') as int))"' 


该 文件 以 root 用 户 执行 ， 需 要 注意 shell 4151 SHRAS HH: 

5. 测试 

首先 清空 上 个 月 的 周期 快照 数据 。 

truncate table month end sales order fact 1 prt p201705; 


然后 在 Falcon Web UI 中 执行 process。 执行 成 功 后 查询 month. end sales order fact #, 结 
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果 如 下 。 可 以 看 到 ， 己 经 生成 了 上 个 月 的 销售 汇总 周期 快照 数据 。 


year month | product sk | month order amount | month order quantity 


------------ +------------+--------------------+---------------------- 
201603 | til 89488.00 | 
201603 | zan] 101670.00 | 
201604 | 2 || 75204.00 | 
201604 | ab || 79238.00 | 
201605 | zl 65415.00 | 
201605 | at. | 44757.00 | 
201606 | z 41790.00 | 
201606 | PT 74628.00 | 
201705 | STi 57833.00 | 391 
201705 | il || 85107.00 | 582 
201705 | ex 52083.00 | 339 
201705 | 4| 49666.00 | 393 
(12 rows) 





累积 快照 


1. 累积 快照 简介 

累积 快照 事实 表 用 于 定义 业务 过 程 开始 、 结束 以 及 期 间 的 可 区 分 的 里 程 碑 事 件 。 通常 在 此 
类 事实 表 中 针对 过 程 中 的 关键 步骤 都 包含 日 期 外 键 , 并 包含 每 个 步骤 的 度量 , 这 些 度量 的 产生 
- 般 都 会 滞后 于 数据 行 的 创建 时 间 。 累 积 快照 事实 表 中 的 一 行 ,对 应 某 一 具体 业务 的 多 个 状态 。 
例如 ， 当 订单 产生 时 会 插入 一 行 。 当 该 订单 的 状态 改变 时 ， 累 积 事实 表 行 被 访问 并 修改 。 这 种 
对 累积 快照 事实 表 行 的 一 致 性 修改 在 三 种 类 型 的 事实 表 (事务 、 周 期 快照 、 累 积 快照 ) 中 具有 
独特 性 ， 对 于 前 面 两 类 事实 表 只 追加 数据 ,不 会 对 已 经 存在 的 行进 行 更 新 操作 。 除 了 日 期 外 键 
与 每 个 关键 过 程 步骤 关联 外 ， 累 积 快照 事实 表 中 还 可 以 包含 其 他 维度 和 可 选 退化 维度 的 外 键 。 

累积 快照 事实 表 在 库存 、 采 购 、 销 售 、 电 商 等 业务 领域 都 有 广泛 应 用 。 比 如 在 电 商 订单 里 
面 ， 下 单 的 时 候 只 有 下 单 时 间 ， 但 是 在 支付 的 时 候 ， 又 会 有 支付 时 间 ， 同 理 ， 还 有 发 货 时 间 ， 
完成 时 间 等 。 下 面 以 销售 订单 数据 仓库 为 例 ， 讨 论 累积 快照 事实 表 的 实现 。 

假设 希望 跟踪 以 下 五 个 销售 订单 的 里 程 碑 : 下 订单 、 分 配 库房 、 打 包 、 配 送 和 收 货 ， 分 别 
用 状态 N、A、P、S、R 表示 。 这 五 个 里 程 碑 的 日 期 及 其 各 自 的 数量 来 自 源 数据 库 的 销售 订单 
表 。 一 个 订单 完整 的 生命 周期 由 五 行 数据 描述 : 下 订单 时 生成 一 条 销售 订单 记录 ; 订单 商品 被 
分 配 到 相应 库房 时 ， 新 增 一 条 记录 ， 存 储 分 配 时 间 和 分 配 数量 ; 产品 打包 时 新 增 一 条 记录 ， 存 
储 打 包 时 间 和 数量 ; 类 似 的， 订单 配送 和 订单 客户 收 货 时 也 都 分 别 新 增 一 条 记录 ， 保 存 各 自 的 
时 间 惟 与 数量 。 为 简化 示例 ， 不 考虑 每 种 状态 出 现 多 条 记录 的 情况 〈 例 如 ， 一 条 订单 中 的 产品 
可 能 是 在 不 同时 间 点 分 多 次 出 库 ) ， 并 且 假 设 这 五 个 里 程 碑 是 以 严格 的 时 间 顺 序 正 向 进行 的 。 
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对 订单 的 每 种 状态 新 增 记 录 只 是 处 理 这 种 场景 的 多 种 设计 方案 之 一 ,如 果 里 程 碑 的 定义 良 
好 并 且 不 会 轻易 改变 , 也 可 以 考虑 在 源 订单 事务 表 中 新 增 每 种 状态 对 应 的 数据 列 , 例如 ,新 增 
8 列 ， 保 存 每 个 状态 的 时 间 惟 和 数量 。 新 增 列 的 好 处 是 仍然 能 够 保证 订单 号 的 唯一 性 ， 并 保持 
相对 较 少 的 记录 数 。 但 是 , 这 种 方案 还 需要 额外 增加 一 个 last. modified 字段 记录 订单 的 最 后 修 
改 时 间 ， 用 于 Sqoop 增 量 数据 抽取 。 因 为 每 条 订单 在 状态 变更 时 都 会 被 更 新 ， 所 以 订单 号 字 
段 已 经 不 能 作为 变化 数据 捕获 的 比较 依据 。 

2. 建立 累积 快照 表 

(1) 修改 源 库 表 结构 
执行 下 面 的 语句 将 源 数 据 库 中 销售 订单 事务 表 结 构 做 相应 改变 ， 以 处 理 5 种 不 同 的 状态 。 
use source; 


-- 修改 销售 订单 事务 表 


alter table sales_order 





change order date status date datetime, 
add order status varchar(1) after status date, 
change order quantity quantity int; 


-- 删除 sales order 表 的 主键 
alter table sales_order change order_number order_number int not null; 
alter table sales order drop primary key; 


-- 建立 新 的 主键 
alter table sales order add id int unsigned not null auto increment primary key 
comment ' 主 键 ' first; 


说 明 : 
€ 将 order date 字段 改名 为 status_date， 因 为 日 期 不 再 单纯 指 订单 日 期 ， 而 是 指 变 为 某 
种 状态 日 期 。 


€ 4 order_quantity 字段 改名 为 quantity， 因 为 数量 变 为 某 种 状态 对 应 的 数量 。 

€ status date 字段 后 增加 order status 字段 ， 存 储 N、A、P、S、R 等 订单 状态 之 一 。 
它 描 述 了 status date 列 对 应 的 状态 值 , 例如 , 如 果 一 条 记录 的 状态 为 N, 则 status. date 
列 是 下 订单 的 日 期 。 如 果 状 态 是 民 ，status_date 列 是 收 货 日 期 。 

o 每 种 状态 都 会 有 一 条 订单 记录 , 这 些 记录 有 具 有 相同 的 订单 号 , 因此 订单 号 不 能 再 作为 
事务 表 的 主键 ， 需 要 删除 order number 字段 上 的 自 增 属性 与 主键 约束 。 

e 添加 自 增 id 字段 作为 销售 订单 表 的 主键 ， 它 是 表 中 的 第 一 个 字段 。 

(2) 重建 销售 订单 外 部 表 
执行 下 面 的 语句 重建 销售 订单 外 部 表 ， 使 其 与 源 表 结构 一 致 。 


set search path-ext; 








drop external table sales order; 
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create external table sales_order 
( id bigint, 
order_number int, 
customer number int, 
product_code int, 
verification_ind char(1), 
credit check flag char(1), 
new customer ind char(1), 
web order flag char(1), 
status date timestamp, 
order status char(1), 
request delivery date timestamp, 
entry date timestamp, 
order amount decimal(10 , 2 ), 
quantity int ) 
location ('pxf://mycluster/data/ext/sales order?profile-hdfstextsimple') 
format 'text' (delimiter-e',', null-'null'); 


comment on table sales order is ' 销 售 订单 外 部 表 '; 
(3) 修改 销售 订单 原始 数据 存储 表 


set search path=rds; 

alter table sales order rename order date to status date; 

alter table sales_order rename order quantity to quantity; 

alter table sales order add column order status char(1) default null; 


comment on column sales order.status date is' 状 态 日 期 '; 

comment on column sales order.quantity is ' 数 量 '; 

comment on column sales order.order status is ' 订 单 状 态 '; 

说 明 : 

© ”将 销售 订单 事实 表 中 order date 和 order quantity 字段 的 名 称 修 改 为 与 源 表 一 致 。 

e ”增加 订单 状态 字段 。 

€  rdssales order 并 没有 增加 id 列 ， 原 因 有 两 个 : 一 是 该 列 只 作为 增 量 检查 列 ， 不 用 在 
原始 数据 表 中 存储 ; 二 是 不 需要 再 重新 导入 已 有 数据 。 


(4) 修改 销售 订单 事实 表 


set search_path=tds; 

alter table sales order fact rename order date sk to status date sk; 
alter table sales order fact rename order quantity to quantity; 

alter table sales order fact add column order status char(1) default null; 


comment on column sales order fact.status date sk is' 状 态 日 期 外 键 '; 
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comment on column sales order fact.quantity is ' 数 量 '; 
comment on column sales order fact.order status is ' 订 单 状 态 '; 


create view v_sales order fact as 
select order number, customer sk, product sk, year month, order amount, 
request delivery date sk, sales order attribute sk, 
customer zip code sk, shipping zip code sk, 
max(case order status when 'N' then status date sk else null end) nd, 
max(case order status when 'N' then quantity else null end) nq, 
max(case order status when 'A' then status date sk else null end) ad, 
max(case order status when 'A' then quantity else null end) aq, 
max(case order status when 'P' then status date sk else null end) pd, 
max(case order status when 'P' then quantity else null end) pq, 
max(case order status when 'S' then status date sk else null end) sd, 
max(case order status when 'S' then quantity else null end) sq, 
max(case order status when 'R' then status date sk else null end) rd, 
max(case order status when 'R' then quantity else null end) rq 
from sales order fact 
group by order number, customer sk, product sk, year month, order amount, 
request delivery date sk, sales order attribute sk, 
customer zip code sk, shipping zip code sk; 


-- 建立 四 个 日 期 维度 视图 

create view v_allocate date dim 

(allocate_date_sk, allocate_date, month, month_name, quarter, year) 
as select * from date dim ; 


create view v packing date dim 
(packing date sk, packing date, month, month name, quarter, year) 
as select * from date dim ; 


create view v ship date dim 
(ship date sk, ship date, month, month name, quarter, year) 
as select * from date dim ; 


create view v receive date dim 
(receive date sk, receive date, month, month name, quarter, year) 
as select * from date dim ; 


说 明 : 

@ ”对 销售 订单 事实 表 结 构 的 修改 与 rds.sales_order 类 似 。 

© 新建 了 一 个 视图 v_sales_order fact， 将 5 个 状态 及 其 数量 做 行 转 列 。 
e 建立 4 个 日 期 角色 扮演 维度 视图 ， 用 来 获取 相应 状态 的 日 期 代理 键 。 
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3. 重建 增 量 抽取 Sqoop 作业 
使 用 下 面 的 脚本 重建 Sqoop 作业 ,因为 源 表 会 有 多 个 相同 的 order number, 所 以 不 能 再 用 
它 作 为 检查 字段 ， 将 检查 字段 改 为 id。 


last value-'sqoop job --show myjob incremental import | grep 








incremental.last.value | awk '(print $3)'^ 

sqoop job --delete myjob incremental import 

Sqoop job --create myjob incremental import -- import --connect 
"jdbc:mysql1://172.16.1.127:3306/source?usessl-false&user-dwtest&password-12345 
6" --table sales order --target-dir /data/ext/sales order --compress --where 
"entry date « current date()" --incremental append --check-column id --last-value 


$1ast value 


4. 修改 定期 数据 装载 函数 
需要 依据 数据 库 模式 修改 定期 装载 函数 ， 修 改 后 的 函数 如 下 《〈 只 列 出 修改 的 部 分 ) 。 


create or replace function fn regular load () 
returns void as $$ 


declare 
-- 设置 scd 的 生效 时 间 
-- 分 析 外 部 表 
-- 将 外 部 表 数 据 装载 到 原始 数据 表 


insert into rds.sales order 
select order_number, customer_number, product_code, status date, 


entry date, 
order_amount, quantity, request_delivery date, verification_ind, 


credit check flag, new customer ind, web order flag, order status 
from ext.sales order; 
-- 分 析 rds 模式 的 表 
-- 设置 cdc 的 上 限时 间 
-- 装载 客户 维度 
-- 装载 产品 维度 


-- 装载 销售 订单 事实 表 
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insert into sales order fact 
select a.order number, customer sk, product sk, e.date sk, 
e.year * 100 + e.month, order amount, quantity, f.date sk, 
g.sales order attribute sk, h.customer zip code sk, 
i.shipping zip code sk, a.order status 
from rds.sales order a, 
v customer dim his c, 
v product dim his d, 
date dim e, 
date dim f, 
sales order attribute dim g, 
v customer zip code dim h, 
v shipping zip code dim i, 
rds.customer j, 
rds.cdc time k 
where a.customer number = c.customer number 
and a.status date »- c.effective date 
and a.status date « c.expiry date 
and a.product code - d.product code 
and a.status date »- d.effective date 
and a.status date « d.expiry date 
and date(a.status date) - e.date 
and date(a.request delivery date) - f.date 
and a.verification ind - g.verification ind 
and a.credit check flag - g.credit check flag 
and a.new customer ind - g.new customer ind 
and a.web order flag - g.web order flag 
and a.customer number - j.customer number 


and j.customer zip code - h.customer zip code 


and j.shipping zip code i.shipping zip code 


and a.entry date >= k.last load and a.entry date « k.current load; 
-- ER PA 客户 维度 
-- 分 析 tds 模式 的 表 
-- BPMN last_load 字段 


end; $$ 

language plpgsql; 

需要 修改 定期 数据 装载 中 的 相应 列 名 。 在 装载 事务 事实 表 时 ， 只 用 entry. date >= last load 
and entry date < current. load 条 件 就 可 以 过 滤 出 所 有 新 录入 的 、 包 括 五 种 状态 的 订单 ， 因 为 每 
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种 状态 的 订单 都 有 自己 对 应 的 录入 时 间 。HAWQ 不 能 更 新 已 有 的 表 数据 ， 因 此 在 装载 时 只 新 
增 数据 , 然后 通过 视图 转化 为 固定 状态 列 的 格式 。 注意 ， 本 示例 中 的 累积 周期 快照 视图 仍然 是 
以 订单 号 字段 作为 逻辑 上 的 主键 。 

5. 测试 

在 源 数据 库 的 销售 订单 事务 表 中 新 增 两 个 销售 订单 记录 。 


use source; 


set (order date := from_unixtime(unix_timestamp ('2017-06-02 00:00:01") + rand() 
* (unix timestamp('2017-06-02 12:00:00') - unix timestamp ('2017-06-02 
00:00:01'))); 

set Grequest delivery date := 
from unixtime(unix timestamp(date add(current date, interval 5 day)) * rand() * 
86400); 

set @amount := floor(1000 + rand() * 9000); 

set @quantity := floor(10 + rand() * 90); 





insert into source.sales_order values 
(null, 141, 1, 1, 'y', 'y', 'y', 'y', @order date, 'N', 
Grequest delivery date, Gorder date, @amount, Gquantity); 


set Qorder date := from unixtime (unix timestamp ('2017-06-02 12:00:00') + rand() 
* (unix timestamp('2017-06-03 00:00:00') - unix timestamp('2017-06-02 
12:00:00) y 

set Grequest delivery date := 
from unixtime(unix timestamp(date add(current date, interval 5 day)) * rand() * 
86400); 

set @amount := floor(1000 + rand() * 9000); 

set @quantity := floor(10 + rand() * 90); 


insert into source.sales order values 

(null, 142, 2, 2, 'y', 'y', 'y', 'y', @order date, 'N', 
Grequest delivery date, QGorder date, @amount, @quantity); 
commit; 
设置 时 间 窗 口 。 


truncate table rds.cdc time; 
insert into rds.cdc time select date '2017-06-02', date '2017-06-02'; 


执行 定期 装载 脚本 。 


^/regular etl.sh 
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查询 v_sales_order_fact 里 的 两 个 销售 订单 ， 确 认定 期 装载 成 功 。 


select a.order number, c.order date, d.allocate date, e.packing date, 
f.ship date, g.receive date 
from v sales order fact a 
left join v order date dim c on a.nd - c.order date sk 
left join v allocate date dim d on a.ad - d.allocate date sk 
left join v packing date dim e on a.pd - e.packing date sk 
left join v ship date dim f on a.sd - f.ship date sk 
left join v receive date dim g on a.rd - g.receive date sk 
where a.order number » 140 
order by order number; 


查询 结果 如 下 ， 只 有 order date 列 有 值 ， 其 他 日 期 都 是 空 ， 因 为 这 两 个 订单 是 新 增 的 ， 并 
且 还 没有 分 配 库房 、 打 包 、 配 送 或 收 货 。 


order number | order date |allocate_date|packing_date |ship date| receive date 
-------------- 4------------4------------4------------4------------4-------- 
141 | 2017-06-02 | | | | 
142 | 2017-06-02 | | | l 
(2 rows) 


添加 销售 订单 作为 这 两 个 订单 的 分 配 库房 和 /或 打包 的 里 程 碑 。 


use source; 


set @order date := from_unixtime (unix timestamp ('2017-06-03 00:00:00") + rand() 
* (unix timestamp('2017-06-03 12:00:00") - unix timestamp ('2017-06-03 
00:00:00'))); 
insert into sales order 
select null, order number, customer number, product code, verification ind, 
credit check flag, new customer ind, web order flag, Gorder date, 'A', 
request delivery date, Gorder date, order amount, quantity 
from sales order 


where order number - 141; 


set (order date := from unixtime(unix timestamp('2017-06-03 12:00:00") + rand() 
* (unix timestamp('2017-06-04 00:00:00') - unix timestamp ('2017-06-03 
12:00:00'))); 
insert into sales order 
select null, order number, customer number, product code, verification ind, 
credit check flag, new customer ind, web order flag, Gorder date, 'P', 
request delivery date, @order date, order amount, quantity 
from sales order 
where id - 143; 
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set @order date := from unixtime(unix timestamp('2017-06-03 12:00:00") + rand() 
* (unix timestamp('2017-06-04 00:00:00') - unix timestamp('2017-06-03 
12:00:00'))); 
insert into sales order 
select null, order number, customer number, product code, verification ind, 
credit check flag, new customer ind, web order flag, Gorder date, 'A', 
request delivery date, Gorder date, order amount, quantity 
from sales order 
where order number - 142; 


commit; 
设置 时 间 窗 口 。 


truncate table rds.cdc time; 
insert into rds.cdc time select date '2017-06-03', date '2017-06-03'; 


执行 定期 装载 脚本 。 
~/regular_etl.sh 


查询 v sales order fact 表 里 的 两 个 销售 订单 ， 确 认定 期 装载 成 功 。 查 询 结果 如 下 。 第 一 
个 订单 具有 了 allocate. date 和 packing_date， 第 二 个 只 具有 allocate date. 


order number | order date |allocate date|packing date| ship date | receive date 
-------------- +------------+------------+------------+------------+------------ 
141 | 2017-06-02 | 2017-06-03 | 2017-06-03 | 
142 | 2017-06-02 | 2017-06-03 | | | 
(2 rows) 


添加 销售 订单 作为 这 两 个 订单 后 面 的 里 程 碑 : 打包 、 配 送 和 /或 收 货 。 注 意 4 个 日 期 可 能 
相同 。 


use source; 


set @order_date := from unixtime(unix timestamp('2017-06-04 00:00:00") + rand() 
* (unix timestamp('2017-06-04 12:00:00') - unix timestamp ('2017-06-04 
00:00:00'))); 
insert into sales order 
select null, order number, customer number, product code, verification ind, 
credit check flag, new customer ind, web order flag, @order date, 'S', 
request delivery date, Gorder date, order amount, quantity 
from sales order 
where order number — 141 
order by id desc 
limit 1; 
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set (order date := from unixtime(unix timestamp('2017-06-04 12:00:00') + rand() 
* (unix timestamp('2017-06-05 00:00:00') - unix timestamp ('2017-06-04 
12:00:00'))); 

insert into sales order 


select null, order number, customer number, product code, verification ind, 
credit check flag, new customer ind, web order flag, Gorder date, 'R', 
request delivery date, @order_ date, order amount, quantity 
from sales order 
where order number = 141 
order by id desc 
limit 1; 
set @order date := from unixtime (unix timestamp('2017-06-04 12:00:00") + rand() 
* (unix timestamp('2017-06-05 00:00:00') - unix timestamp ('2017-06-04 
T2100) 009m 
insert into sales order 
select null, order number, customer number, product code, verification ind, 
credit check flag, new customer ind, web order flag, order date, 'P', 


request delivery date, @order date, order amount, quantity 
from sales order 


where order number - 142 
order by id desc 
limit 1; 


commit; 


设置 时 间 窗 口 。 


truncate table rds.cdc time; 


insert into rds.cdc_time select date '2017-06-04', date '2017-06-04'; 
执行 定期 装载 脚本 。 

^/regular etl.sh 

查询 v sales order fact 表 里 的 两 个 销售 订单 ， 确 认定 期 装载 成 功 。 查 询 结果 如 下 。 第 一 


个 订单 号 为 141 的 订单 ， 具 有 了 全 部 日 期 ， 这 意味 着 订单 已 完成 〈 客 户 已 经 收 货 ) 。 第 二 个 订 
单 已 经 打包 ， 但 是 还 没有 配送 。 


order number | order date |allocate date |packing date | ship date | receive date 


-------------+----------- ——------------- 一 + 一 一 一- 一 一 一 一 一 一 一 +------------ 4-------- 
141 | 2017-06-02 | 2017-06-03 | 2017-06-03 | 2017-06-04 | 2017-06-04 
142 | 2017-06-02 | 2017-06-03 | 2017-06-04 | | 


(2 rows) 


403 


6. 修改 周期 快照 表 装 载 函数 


累积 快照 将 原来 的 一 个 数量 order quantity 变 为 了 每 种 状态 对 应 一 个 数量 ， 因 此 需要 修改 
周期 快照 表 装 载 函 数 fn. month_sum。 该 函数 汇总 月 底 订 单 金额 和 数量 ， 我 们 必须 重新 定义 数 
量 。 假 设 需要 统计 的 是 新 增订 单 中 的 数量 ， 修 改 后 的 函数 如 下 。 


create or replace function tds.fn_month_sum(p_year_month int) 
returns void as $$ 
declare 

sqlstring varchar (1000); 
begin 

-- RARE, FEHR LH EHE 
Sqlstring := 'truncate table month end sales order fact 1 prt p' 
|| cast(p year month as varchar); 


execute sqlstring; 


-- 插入 上 月 销售 汇总 数据 
insert into month_end_sales order fact 
select tl.year month, t2.product_sk, coalesce(t2.month_order_amount,0), 
coalesce (t2.month_order_quantity, 0) 
from (select p year month year month) tl 
left join (select year month, product sk, 
sum(order amount) month order amount, 
sum(quantity) month order quantity 
from sales order fact 
where year month = p year month 
and coalesce(order status, 'N') = 'N' 
group by year month,product sk) t2 
on tl.year month - t2.year month; 
end; $$ 
language plpgsql; 


无 事实 的 事实 表 


1. 无 事实 的 事实 表 简介 
在 多 维 数据 仓库 建 模 中 ， 有 一 种 事实 表 叫 做 “无 事实 的 事实 表 ”〈 也 称 无 事实 事实 表 ) 。 
普通 事实 表 中 , 通常 会 保存 若干 维度 外 键 和 多 个 数字 型 度量 , 度量 是 事实 表 的 关键 所 在 。 然 而 
在 无 事实 的 事实 表 中 没有 这 些 度量 值 ， 只 有 多 个 维度 外 键 。 表面 上 看 , 无 事实 事实 表 是 没有 意 
义 的 , 因为 作为 事实 表 , 毕竟 最 重要 的 就 是 度量 。 但 在 数据 仓库 中 , 这 类 事实 表 有 其 特殊 用 途 。 
无 事实 的 事实 表 通 常用 来 跟踪 某 种 事件 或 者 说 明 某 些 活动 的 范围 





























o 
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无 事实 的 事实 表 可 以 用 来 虽 踪 事件 的 发 生 。 例如 , 在 给 定 的 某 一 天 中 发 生 的 学 生 参 加 课程 
的 事件 ， 可 能 没有 可 记录 的 数字 化 事实 ， 但 读 事 实行 带 有 一 个 包含 日 期 、 学 生 、 教 师 、 地 点 、 
课程 等 定义 良好 的 外 键 。 利 用 无 事实 的 事实 表 可 以 按 各 和 维度 计数 上 课 这 个 事件 。 

无 事实 的 事实 表 还 可 以 用 来 说 明 某 些 活动 的 范围 ， 常 被 用 于 回答 “什么 未 发 生 ” 这 样 的 问 
题 。 例 如 ， 促销 范围 事实 表 。 通 党 销售 事实 表 可 以 回答 如 促销 商品 的 销售 情况 ,可 是 无 法 回答 
的 一 个 重要 间 题 是 :处 于 促销 状态 但 尚未 销售 的 产品 包括 哪些 ? 销售 事实 表 所 记录 的 仅仅 是 实 
际 卖 出 的 产品 。 事实 表 行 中 不 包括 由 于 没有 销售 行为 而 销售 数量 为 零 的 行 , 因为 如 果 将 包含 零 
值 的 产品 都 加 到 事实 表 中 ， 那 么 事实 表 将 变 得 非常 巨大 。 这 时 ， 通 过 建立 促销 范围 事实 表 , 将 
商场 需要 促销 的 商品 单独 建立 事实 表 保存 ,然后 通过 这 个 促销 范围 事实 表 和 销售 事实 表 即 可 得 
出 哪些 促销 商品 没有 销售 出 去 。 

为 确定 当前 促销 的 产品 中 哪些 尚未 卖 出 , 需要 两 步 过 程 : 首先 , 查询 促销 无 事实 的 事实 表 ， 
确定 给 定时 间 内 促销 的 产品 。 然 后 从 销售 事实 表 中 确定 哪些 产品 已 经 卖 出 去 了 ,答案 就 是 上 述 
两 个 列表 的 差 集 。 这 样 的 促销 范围 事实 表 只 是 用 来 说 明 促销 活动 的 范围 ,其 中 没有 任何 事实 度 
量 ,建立 一 个 单独 的 促销 商品 维 度 表 能 耕 可 以 达到 同样 的 效果 呢 ? 促销 无 事实 的 事实 表 包 含 多 
个 维度 的 主键 ,可 以 是 日 期 、 产 品 、 商店、 促销 等 ,将 这 些 健 作为 促销 商品 的 属性 是 不 合适 的 ， 
因为 每 个 维度 都 有 自己 的 属性 集合 。 

促销 无 事实 事实 表 看 起 来 与 销售 事实 表 相似 。 然 而 ,它们 的 六 度 存在 显著 差别 。 假设 促 销 
是 以 一 周 为 持续 其 在 促销 范围 事实 表 中 ， 将 为 每 周 每 个 商店 中 促销 的 产品 加 载 一 行 ， 无 论 产 
品 是 否 卖 出 。 访 事实 表 能 够 确保 看 到 被 促销 定义 的 键 之 间 的 关系 ,而 与 其 他 事件 ,如 产品 销售 

下 面 以 销售 订单 数据 仓库 为 例 , 说 明 如 何 处 理 源 数据 中 没有 度量 的 需求 。 建立 一 个 无 事实 
的 事实 表 , 用 来 统计 每 天 发 布 的 新 产品 数量 。 产 品 源 数 据 不 包含 产品 数量 信息 ,如 果 系 统 需 要 
得 到 历史 某 一 天 新 增产 品 的 数量 , 很 显然 不 能 简单 地 从 数据 仓库 中 得 到 。 这 时 就 要 用 到 无 事实 
的 事实 表 技术 。 使 用 此 技术 可 以 通过 持续 跟踪 产品 发 布 事件 来 计算 产品 的 数量 。 可 以 创建 一 个 
只 有 产品 ( 计 什么 数 ) 和 日 期 (什么 时 候 计数 ) 维度 代理 键 的 事实 表 。 之 所 以 叫做 无 事实 的 事 
实 表 是 因为 表 本 身 并 没有 数字 型 度量 值 。 这 里 定义 的 新 增产 品 是 指 在 某 一 给 定 日 期 , 源 产 品 表 
中 新 插入 的 产品 记录 , 不 包括 由 于 SCD2 新 增 的 产品 版 本 记录 。 注意 , 单 从 这 个 简单 需求 来 看 ， 
也 可 以 通过 查询 产品 维度 表 获取 结果 。 这 里 只 为 演示 无 事实 事实 表 的 实现 过 程 。 

2. 建立 新 产品 发 布 的 无 事实 事实 表 


E tds 模式 中 新 建 一 个 产品 发 布 的 无 事实 事实 表 product. count. fact, 该 表 中 只 包含 两 个 字 
BE, 分 别 是 引用 日 期 维度 表 和 产品 维度 表 的 外 键 , 同时 这 两 个 字段 也 构成 了 无 事实 事实 表 的 逻 
辑 主键 。 图 17-3 显示 了 跟踪 产品 发 布 数量 的 表 。 
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product_count_fact | 








product sk 
product launch date sÉpi,fi2? 


<pi,fil> 





































product_dim date_dim 
product sk <pi> date sk <pi> 
product code date 
product name nonth 
product category nonth name 
isdelete quarter 
version year 
effective date 





1-3 无 事实 的 事实 表 
执行 下 面 的 语句 ， 在 数据 仓库 模式 中 创建 产品 发 布 日 期 视图 及 其 无 事实 事实 表 。 


set search path=tds; 


create view product launch date dim 
(product_launch_date_sk, product_launch_date, month_name, month, quarter, 
year)as 
select distinct date_sk, date, month_name, month, quarter, year 
from product_dim a, date dim b 
where a.effective_date = b.date 
1; 


and a.version 


create table product_count_fact ( 

product_sk int, 
product_launch_date_sk int); 
说 明 : 
与 之 前 创建 的 很 多 日 期 角色 扮演 维度 不 同 ， 产 品 发 布 日 期 视图 只 获取 产品 生效 日 期 ， 
而 不 是 日 期 维度 里 的 所 有 记录 .因此 在 定义 视图 的 查询 语句 中 关联 了 产品 维度 和 日 期 
维度 两 个 表 。product_launch_date_dim 维度 是 日 期 维度 表 的 子 集 。 
从 字段 定义 上 看 ， 产 品 维度 表 中 的 生效 日 期 明显 就 是 新 产品 的 发 布 日 期 。 
version=1 过 滤 掉 由 于 SCD2 新 增 的 产品 版 本 记录 。 

3. 初始 装载 无 事实 事实 表 

下 面 的 语句 从 产品 维度 表 向 无 事实 事实 表 装 载 已 有 的 产品 发 布 信息 。insert 语句 添加 所 有 
产品 的 第 一 个 版 本 ， 即 产品 的 首次 发 布 日 期 。 
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insert into product count fact 
select a.product_sk product_sk, b.date sk date sk 
from product dim a,date dim b 


where a.effective date = b.date and a.version = 1; 


使 用 下 面 的 语句 查询 product. count. fact 表 以 确认 正确 执行 了 初始 装载 。 


select product sk,product launch date sk 
from tds.product count fact 
order by product sk; 


查询 结果 如 下 : 
product sk | product launch date sk 
S 一 一 一 
ak cq 5905 
2 | 5905 
3 | 5905 
5 | 6351 
(4 rows) 


4. 修改 定期 数据 装载 函数 
修改 了 数据 仓库 模式 后 , 还 需要 针对 性 的 修改 定期 装载 函数 , 在 处 理 产 品 维度 表 后 增加 了 
装载 product count fact 表 的 语句 。 下 面 显示 了 修改 后 的 定期 装载 函数 〈 只 列 出 修改 的 部 分 ) 。 


create or replace function fn_regular_load () 
returns void as $$ 
declare 


-- 设置 scd 的 生效 时 间 


begin 
-- 分 析 外 部 表 


-- 将 外 部 表 数 据 装 载 到 原始 数据 表 
5 分 析 rds 模式 的 表 

n 设置 cdc 的 上 限时 间 

3 装载 客户 维度 

2 装载 产品 维度 


-- 装载 新 增产 品 数量 无 事实 事实 表 


insert into tds.product_count_fact 
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select a.product_sk, b.date sk 
from tds.product dim a, tds.date dim b 
where a.version = 1 
and a.effective date - v pre date 
and a.effective date - b.date; 


-- 装载 销售 订单 事实 表 
-- HR PA 客户 维度 
-- 分 析 tds 模式 的 表 


-- 更 新 时 间 惟 表 的 last_load 字段 


end; $$ 
language plpgsql; 


5. 测试 
修改 源 数据 库 的 product 表 数 据 ， 把 产品 编码 为 1 的 产品 名 称 改 为 


“Regular Hard Disk 


Drive”， 并 新 增 一 个 产品 “High End Hard Disk Drive’ (77 ini 5) 。 执 行 下 面 的 语句 完 


成 此 修改 。 


use source; 


update product set product_name = 'Regular Hard Disk Drive' where product_code=1; 


insert into product values (5, 'High End Hard Disk Drive', 


^/regular etl.sh 
通过 查询 product. count. fact 表 确 认定 期 装载 执行 正确 。 


select c.product_sk psk, 
c.product code pc, 
b.product launch date sk plsk, 
b.product launch date pld 
from product count fact a, 
product launch date dim b, 
product dim c 
where a.product launch date sk - b.product launch date sk 
and a.product sk - c.product sk 
order by pc, pld; 
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查询 结果 如 下 。 可 以 看 到 只 是 增加 了 一 条 新 产品 记录 ， 原 有 数据 没有 变化 。 


psk | pe | plsk | pld 
----- 4----4------4------------ 
t T 1 5905) 2016=03-01 
22 S5905 | 2016-03-07 
3 || 3 | 5905| 2016-03-01 
S p a j 6351 | 2017-05-21 
7 | 5 1 6366 1 2017=06=05 
(5 rows) 


无 事实 事实 表 是 没有 任何 度量 的 事实 表 , 它 本 质 上 是 一 组 维度 的 交集 。 用 这 种 事实 表 记 录 
相关 维度 之 间 存 在 多 对 多 关系 , 但 是 关系 上 没有 数字 或 者 文本 的 事实 。 无 事实 事实 表 为 数据 仓 
库 设 计 提 供 了 更 多 的 灵活 性 。 


17.6 迟到 的 事实 


1. 迟到 的 事实 简介 

数据 仓库 通常 建立 在 一 种 理想 的 假设 情况 下 ,这 就 是 数据 仓库 的 度量 (事实 记录 ) 与 度量 
的 环境 (维度 记录 ) 同时 出 现在 数据 仓库 中 。 当 同时 拥有 事实 记录 和 正确 的 当前 维度 行 时 ， 就 
能 够 从 容 地 首先 维护 维度 键 ， 然 后 在 对 应 的 事实 表 行 中 使 用 这 些 最 新 的 键 。 然 而 ,各 种 各 样 的 
原因 会 导致 需要 ETL 系统 处 理 迟 到 的 事实 数据 。 例 如 ， 某 些 线 下 的 业务 ， 数 据 进入 操作 型 系 
统 的 时 间 会 滞后 于 事务 发 生 的 时 间 。 再 或 者 出 现 某 些 极端 情况 ， 如 源 数 据 库 系统 出 现 故障 , TE 
到 恢复 后 才能 补 上 故障 期 间 产 生 的 数据 。 

在 销售 订单 示例 中 ， 晚 于 订单 日 期 进入 源 数据 的 销售 订单 可 以 看 作 是 一 个 迟到 事实 的 例 
子 。 销 售 订单 数据 被 装载 进 其 对 应 的 事实 表 时 ,装载 日 期 晚 于 销售 订单 产生 的 日 期 ,因此 是 一 
个 迟到 的 事实 。 本 例 中 因为 定期 装载 的 是 前 一 天 的 数据 ， 所 以 这 里 的 “ 晚 于 ” 指 的 是 事务 数据 
延迟 两 天 及 其 以 上 才 到 达 ETL 系统 。 

必须 对 标准 的 ETL 过 程 进行 特殊 修改 以 处 理 迟 到 的 事实 。 首 先 ， 当 迟到 度量 事件 出 现时 ， 
不 得 不 反 向 搜索 维度 表 历史 记录 ， 以 确定 事务 发 生 时 间 点 的 有 效 的 维度 代理 键 , 因为 当前 的 维 
度 内 容 无 法 匹配 输入 行 的 情况 。 此 外 ， 还 需要 调整 后 续 事实 行 中 的 所 有 半 可 加 度量 ， 例 如 ， 由 
于 迟到 的 事实 导致 客户 当前 余额 的 改变 。 迟 到 事实 可 能 还 会 引起 周期 快照 事实 表 的 数据 更 新 ， 
如 果 2017 年 5 月 的 销售 订单 金额 已 经 计算 并 存储 在 month end sales order fact 快照 表 中 ， 这 
时 一 个 迟到 的 5 月 订单 在 6 月 某 天 被 装载 ， 那 么 2017 年 5 月 的 快照 金额 必须 因 迟 到 事实 而 重 
新 计算 。 

下 面 就 以 销售 订单 数据 仓库 为 例 ， 说 明 如 何 处 理 迟 到 的 事实 。 
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2. 修改 数据 仓库 表 结 构 

在 17.1 节 中 建立 的 月 销售 周期 快照 表 ， 其 数据 来 自己 经 处 理 过 的 销售 订单 事务 事实 表 。 
因此 为 了 确定 事实 表 中 的 一 条 销售 订单 记录 是 否 是 迟到 的 , 需要 把 源 数据 中 的 登记 日 期 列 装载 
进 销售 订单 事实 表 。 为 此 在 销售 订单 事实 表 上 添加 登记 日 期 代理 键 列 。 为 了 获取 登记 日 期 代理 
键 的 值 , 还 要 使 用 维度 角色 扮演 技术 添加 登记 日 期 维度 表 。 执行 下 面 的 语句 在 销售 订单 事实 表 
里 添加 名 为 entry_date_sk 的 日 期 代理 键 列 ， 并且 从 日 期 维度 表 创 建 一 个 叫做 v_entry_date_dim 
的 数据 库 视 图 。 


set search path=tds; 


-- 给 销售 订单 事实 表 增 加 登记 日 期 代理 键 
alter table sales order fact add column entry date sk int default null; 
comment on column sales order fact.entry date sk is' 登 记 日 期 代理 键 '; 


-- 建立 登记 日 期 维度 视图 

create view v_entry date dim 

(entry date sk, entry date, month name, month, quarter, year) 
as 

select date sk, date, month name, month, quarter, year 


from date dim; 
3. 修改 定期 数据 装载 函数 
在 创建 了 登记 日 期 维度 视图 , 并 给 销售 订单 事实 表 添加 了 登记 日 期 代理 键 列 后 ， 需 要 修改 
数据 仓库 定期 装载 脚本 来 装载 登记 日 期 。 修 改 后 的 装载 函数 如 下 《〈 只 列 出 修改 的 部 分 ) 。 注 意 
sales_order 源 数据 表 及 其 对 应 的 过 渡 表 中 都 已 经 含有 登记 日 期 , 只 是 以 前 没有 将 其 装载 进 数据 
仓库 。 


create or replace function fn_regular_load () 
returns void as $$ 
declare 


-- 设置 scd 的 生效 时 间 


begin 
-- 分 析 外 部 表 


-- 将 外 部 表 数 据 装载 到 原始 数据 表 
-- 分 析 rds 模式 的 表 
-- 设置 cdc 的 上 限时 间 


-- 装载 客户 维度 
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-- 装载 产品 维度 


-- 装载 新 增产 品 数 量 无 事实 事实 表 





-- 装载 销售 订单 事实 表 


insert into sales order fact 


select a.order_number, 


from 


where 
and 
and 
and 
and 
and 
and 
and 
and 
and 
and 
and 


customer_sk, 

product_sk, 

e.date_sk, 

e.year * 100 + e.month, 

order amount, 

quantity, 

f.date sk, 

g.sales order attribute sk, 
h.customer zip code sk, 
i.shipping zip code sk, 

a.order status, 

l.entry date sk 

rds.sales order a, 

v customer dim his c, 

v product dim his d, 

date dim e, 

date dim f, 

sales order attribute dim g, 
v customer zip code dim h, 
v shipping zip code dim i, 
rds.customer j, 

rds.cdc time k, 
v entry date dim 1 

a.customer number = c.customer number 
a.status date »- c.effective date 
a.status date « c.expiry date 
a.product code - d.product code 
a.status date »- d.effective date 
a.status date « d.expiry date 
date(a.status date) - e.date 
date(a.request delivery date) - f.date 
date(a.entry date) - l.entry date 
a.verification ind - g.verification ind 
a.credit check flag = g.credit check flag 


a.new customer ind = g.new customer ind 


411 





and a.web_order flag = g.web_order flag 

and a.customer_number = j.customer_number 

and j.customer zip code = h.customer zip code 

and j.shipping zip code - i.shipping zip code 

and a.entry date >= k.last load and a.entry date « k.current load; 


-- HR PA 客户 维度 
-- 分 析 tds 模式 的 表 


-- 更 新 时 间 戳 表 的 last load 字段 


end; $$ 
language plpgsql; 
在 装载 函数 中 使 用 销售 订单 过 渡 表 的 状态 日 期 字段 限定 当时 的 维度 代理 键 。 例 如 , 为 了 获 


取 事 务 发 生 时 的 客户 代理 键 ， 筛 选 条 件 为 : 


status date >= v customer dim his.effective date 
and status date « v customer dim his.expiry date 


之 所 以 可 以 这 样 做 , 原因 在 于 本 示例 满足 以 下 两 个 前 提 条 件 : 在 最 初 源 数据 库 的 销售 订单 
表 中 ，status_date 存储 的 是 状态 发 生 时 的 时 间 ; 维度 的 生效 时 间 与 过 期 时 间 构 成 一 条 连续 且 不 
重合 的 时 间 轴 ， 任 意 status date 日 期 只 能 落 到 唯一 的 生效 时 间 、 过 期 时 间 区 间 内 。 

4. 修改 装载 周期 快照 事实 表 的 函数 

17.1 节 中 创建 的 fn. month. sum 函数 用 于 装载 月 销售 周期 快照 事实 表 。 退 到 的 事实 记录 会 
对 周期 快照 中 已 经 生成 的 月 销售 汇总 数据 产生 影响 , 因此 必须 做 适当 的 修改 。 月 销售 周期 快照 
表 存 储 的 是 某 月 某 产品 汇总 的 销售 数量 和 销售 金额 , 表 中 有 年 月 、 产 品 代理 键 、 销 售 金额 、 销 
售 数量 四 个 字段 。 由 于 迟到 事实 的 出 现 ， 需 要 将 事务 事实 表 中 的 数据 划分 为 两 类 : 上 月 的 周期 
快照 和 更 早 的 周期 快照 。 

fn_month_sum 函数 先 删 除 在 生成 上 个 月 的 汇总 数据 再 重新 生成 ， 此 时 上 月 的 迟到 数据 可 
以 正确 汇总 。 对 于 上 上 个 月 或 更 早 的 迟到 数据 ， 需 要 将 迟到 的 数据 累加 到 已 有 的 周期 快照 上 。 
下 面 修改 fn. month sum 函数 , 使 之 能 够 自动 处 理 任 意 时 间 的 迟到 事实 数据 。 HAWQ 不 能 行 级 
更 新 或 删除 数据 , 因此 为 了 实现 所 谓 的 寡 等 操作 ,需要 标识 出 迟到 事实 记录 对 应 的 事实 表 逻 辑 
主键 ， 在 重复 执行 周期 快照 装载 函数 时 过 滤 掉 已 经 装载 过 的 迟到 数据 。 

(1) 给 周期 快照 事实 表 增 加 事务 事实 表 的 逻辑 主键 ， 正 常数 据 〈 非 迟到 ) 对 应 的 
order_number 字段 值 为 空 。 


alter table month end sales order fact add order number bigint default null; 
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(2) 修改 周期 快照 事实 表 装载 函数 


create or replace function tds.fn_month_sum(p_year_month int) 
returns void as $$ 
declare 

sqlstring varchar (1000); 


begin 
-- EGRE WR LH BGR 
sqlstring := 'truncate table month end sales order fact 1 prt p' 


|| cast(p year month as varchar); 
execute sqlstring; 


-- 插入 上 月 销售 汇总 数据 
insert into month_end_sales_order_fact 
select tl.year_month, t2.product_sk, coalesce(t2.month_order_amount,0), 
coalesce(t2.month order quantity,0), null 
from (select p year month year month) t1 
left join (select year month, product sk, 
sum(order amount) month order amount, 
sum(quantity) month order quantity 
from sales order fact 
where year month - p year month 
and coalesce(order status, 'N') = 'N' 
group by year month,product sk) t2 
on tl.year month - t2.year month; 


-- 装载 迟到 的 数据 
insert into month end sales order fact 
select year month, product sk, order amount, quantity, order number 
from (select tl.year month, tl.product sk, tl.order amount, tl.quantity, 
tl.order number 
from sales order fact tl, v entry date dim t2 
where coalesce(tl.entry date sk, tl.status date sk) - 
t2.entry date sk 
and t2.year*100 + t2.month = p year month 
and ti.year month < p year month 
and coalesce(tl.order status, 'N') = 'N' 
and not exists (select 1 from month end sales order fact t3 
where tl.order number = 
t3.order number) jo tb 
end; $$ 
language plpgsql; 
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说 明 : 

€ = 2.year*100 +t2.month = p year month andtl.year month < p year month 处 理 上 个 月 
之 前 的 迟到 数据 。 

@ not exists (select 1 from month_end_sales_order_fact t3 where tl.order_number = 


t3.order_number) Abi AR ARAKI, ATRL. 
(3) 建立 视图 进行 二 次 汇总 


create view v month end sales order fact as 

select year month, product sk, 

sum(month order amount) month order amount, 

sum(month order quantity) month order quantity 
from month end sales order fact 


group by year month, product sk; 
5. 测试 


在 执行 定期 装载 前 使 用 下 面 的 语句 查询 month end sales order fact 表 。 之 后 可 以 对 比 “ 前 ” 
〈 不 包含 迟到 事实 ) “后 ” (包含 了 迟到 事实 ) 的 数据 ， 以 确认 装载 的 正确 性 。 


select year_month, 
product_name, 
month_order_amount amt, 
month order quantity qty 
from month end sales order fact a, 
product dim b 
where a.product sk - b.product sk 
and year month - cast(extract(year from current date - interval '1 month') 
* 100 
* extract (month from current date - interval '1 month') as int) 
order by year month, product name; 


查询 结果 如 下 : 


year_month | product name | amt | aty 
------------- 4-----------------4----------4----- 
201705 | flat panel | 49666.00 | 393 
201705 | floppy drive | 52083.00 | 339 
201705 | hard disk drive | 85107.00 | 582 
201705 | keyboard | 57833.00 | 391 
(4 rows) 


下 一 步 执行 下 面 的 语句 准备 销售 订单 测试 数据 。 将 三 个 销售 订单 装载 进 销售 订单 源 数据 ， 
-个 是 迟到 的 在 month end sales order fact 中 已 存在 的 产品 ， 一 个 是 迟到 的 在 
month end sales order fact 中 不 存在 的 产品 ， 另 一 个 是 非 迟 到 的 正常 产品 。 这 里 需要 注意 ， 产 
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品 维度 是 SCD2 处 理 的 , 所 以 在 添加 销售 订单 时 , 新 增订 单 时 间 一 定 要 在 产品 维度 的 生效 与 过 
期 时 间 区 间 内 。 


use source; 





-- 迟到 已 存在 

set @order date := from unixtime (unix timestamp('2017-05-10') + rand() * 
(unix timestamp('2017-05-11') - unix_timestamp('2017-05-10'))); 

set Grequest delivery date :- 
from unixtime(unix timestamp(date add(Gorder date, interval 5 day)) * rand() * 
86400); 

set @entry_date := from unixtime(unix timestamp('2017-06-07') + rand() * 
(unix timestamp('2017-06-08') - unix timestamp('2017-06-07'))); 

set @amount :- floor(1000 + rand() * 9000); 

set @quantity := floor(10 + rand() * 90); 


insert into source.sales order values 
(null, 143, 6, 2, 'y', 'y', 'y', 'y', Gorder dete, 'N', 
Qrequest delivery date, @entry date, @amount, @quantity); 


-- 迟到 不 存在 

set @order_date := from unixtime(unix timestamp('2017-05-10') + rand() * 
(unix timestamp('2017-05-11') - unix timestamp ('2017-05-10'))); 

set @request_delivery date := 
from unixtime(unix timestamp(date add(Gorder date, interval 5 day)) + rand() * 
86400) ; 

set @entry date :- from unixtime(unix timestamp('2017-06-07') + rand() * 
(unix timestamp('2017-06-08') - unix timestamp('2017-06-07'))); 

set @amount := floor(1000 + rand() * 9000); 

set Gquantity :- floor(10 * rand() * 90); 


insert into source.sales order values 
(null, 144, 6, 3, 'y', 'y', 'y', 'y', Gorder date, 'N', 
(request delivery date, Gentry date, @amount, Gquantity); 


-- 非 迟 到 

set @entry_date := from unixtime(unix timestamp('2017-06-07') + rand() * 
(unix timestamp('2017-06-08') - unix_timestamp('2017-06-07'))); 

set @request delivery date := 
from unixtime(unix timestamp(date add(Gentry date, interval 5 day)) + rand() * 
86400) ; 

set @amount := floor(1000 + rand() * 9000); 

set @quantity := floor(10 + rand() * 90); 
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insert into source.sales_ order values 
(null, 145, 12, 4, "yY, "yV, "yY, “y", @entry date, 'N'; 
Grequest delivery date, @entry date, @amount, @quantity); 


commit; 

执行 定期 装载 脚本 。 

~/regular_etl.sh 

现在 已 经 准备 好 运行 修改 后 的 月 底 快照 装载 ,手工 执行 下 面 的 命令 执行 月 底 销售 订单 事实 
表 装 载 函数 导入 2017 年 5 月 的 快照 。 


su - gpadmin -c 'export PGPASSWORD=123456;psql -U dwtest -d dw -h hdp3 -c "set 
search path-tds;select fn month sum(cast(extract(year from current date - 
interval 'V''1 month'\'') * 100 + extract (month from current date - interval 'V''1 


month NN) as Lot) 


执行 与 测试 开始 时 相同 的 查询 获取 包含 了 迟到 事实 月 底 销 售 订单 数据 ， 查 询 结果 如 下 。 


year month | product name | amt | qty 
-T----------- 4-----------------4----------4----- 
201705 | flat panel | 49666.00 | 393 
201705 | floppy drive | 57707.00 | 361 
201705 | hard disk drive | 85107.00 | 582 
201705 | keyboard i 57833.00 1-391 
201705 | lcd panel 1053087700 1 11I 
(5 rows) 


对 比 “ 前 ” “后 ”查询 的 结果 可 以 看 到 : 


€ 2017 年 5 月 Floppy Drive 的 销售 金额 已 经 从 52083 变 为 57707, 这 是 由 于 迟到 的 产品 
销售 订单 增加 了 5624 的 销售 金额 。 销 售 数量 也 相应 地 增加 了 。 
€ 2017 年 5 月 的 LCD Panel (也 是 迟到 的 产品 ) 被 添加 。 


1 7 .与 ”累积 度量 


累积 度量 指 的 是 聚合 从 序列 内 第 一 个 元 素 到 当前 元 素 的 数据 ,例如 统计 从 每 年 的 一 月 到 当 
前 月 份 的 累积 销售 额 。 本 节 说 明 如 何在 销售 订单 示例 中 实现 累积 月 销售 数量 和 金额 , 并 对 数据 
仓库 模式 、 初 始 装 载 、 定 期 装载 做 相应 地 修改 。 累 积 度量 是 半 可 加 的 ， 而 且 它 的 初始 装载 要 复 


杂 一 些 。 
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1. 建立 累积 度量 事实 表 


执行 下 面 的 语句 创建 month end balance fact 事实 表 ， 用 来 存储 销售 订单 金额 和 数量 的 月 
累积 值 。 


set search path=tds; 
create table month end balance fact ( 
year month int, 
product sk int, 
month end amount balance numeric(10,2), 


month end quantity balance int ); 


comment on table month end balance fact is ' 累 积 度量 事实 表 '; 

comment on column month end balance fact.year month is ' 年 月 '; 

comment on column month end balance fact.product sk is ' 产 品 代理 键 '; 

comment on column month end balance fact.month end amount balance is '##i'; 
comment on column month end balance fact.month end quantity balance is ' 数 量 


2. 初始 装载 


现在 要 把 month end sales order fact 表 里 的 数据 装载 进 month_end_balance_fact 表 ， 下 面 
显示 了 初始 装载 month end balance fact 表 的 语句 ， 装 载 累 积 的 月 销售 订单 汇总 数据 ， 从 每 年 
的 一 月 累积 到 当月 ， 累 积 数据 不 跨 年 。 


insert into month end balance fact 
select a.year month, b.product sk, 
sum(b.month order amount) month order amount, 
sum(b.month order quantity) month order quantity 
from (select distinct year month, year month/100 yearl, 
year month - year month/100*100 monthl 
from v month end sales order fact) a, 
(select *, year month/100 yearl, year month - year month/100*100 monthl, 
max(year month) over () max year month 
from v month end sales order fact) b 
where a.year month «- b.max year month 
and a.yearl = b.yearl and b.monthl <= a.monthl 
group by a.year month, b.product sk; 


子 查询 获取 month end sales order fact 表 的 数据 ， 及 其 年 月 和 最 大 月 份 代 理 键 。 外 层 查 
询 汇总 每 年 一 月 到 当月 的 累积 销售 数据 ，a.year_month <= b.max year month 条 件 用 于 限定 只 
统计 到 现存 的 最 大 月 份 为 止 。 为 了 确认 初始 装载 是 否 正 确 , 在 执行 完 初始 装载 脚本 后 ， 分 别 查 
if] month_end_sales_order_fact 和 month end balance fact 表 。 


查询 周期 快照 : 
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select year month, product sk psk, month order amount amt, 
month order quantity qty 
from v month end sales order fact 


order by year month, psk; 


查询 结果 如 下 : 

year month | psk | amt | qty 

二 了 
201603 | 1 | 89488.00 | 
201603 | 2 | 101670.00 | 
201604 | T | 79238.00 | 
201604 | 2 | 75204.00 | 
201605 | 1 | 44757.00 | 
201605 I2: | 65415.00 | 
201606 | 1 | 74628.00 | 
201606 | 2 | 41790.00 | 
201705 | 1 | 85107.00 | 582 
201705 | 2 | 57707.00 | 361 
201705 | 3 | 3087.00 [poet 
201705 | 4 | 49666.00 15393 
201705 | 5 | 57833.00 | 391 

(13 rows) 

查询 累积 度量 : 


select year month, product sk psk, month end amount balance amt, 
month end quantity balance qty 
from month end balance fact 
order by year month, psk; 


查询 结果 如 下 : 


Year_month | Psk | amt | qty 
------------ 4-----4-----------4----- 
201603 | 1 | 89488.00 | 
201603 | 2 | 101670.00 | 
201604 | 1 | 168726.00 | 
201604 | 2 | 276874.00. | 
201605 | 1 | 213483.00 | 
201605 | 2 | 242289.00 | 
201606 | 1 | 288111.00 | 
201606 | 2 | 284079.00 | 
201705 | 1 | 85107.00 | 582 
201705 | 2 | 57707.00 | 361 
201705 I 3 | 3087:00 | 11 
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201705 | 4 | 49666.00 | 393 
201705 > 5: 57833-00 (39 
(13 rows) 


可 以 看 到 , 2016 年 3 月 的 商品 销售 金额 被 累积 到 了 2016 44H, 2016 4E 3 月 和 4 月 的 商 
品 销售 金额 被 累积 到 了 2016 年 5 月 ， 等 等 。 


3. 定期 装载 
下 面 所 示 的 month_balance_sum.sql 脚本 用 于 定期 装载 销售 订单 累积 度量 ， 每 个 月 执行 一 
次 ， 装 载 上 个 月 的 数据 。 可 以 在 执行 完 月 周期 快照 表 定 期 装载 后 执行 该 脚本 。 
insert into month end balance fact 
select year month, product_sk, sum(month_order_amount), 
sum(month_order_quantity) 
from (select * 
from v month end sales order fact 
where year month - :v year month 
union all 
select :v year month, product sk product sk, 
month end amount balance month order amount, 
month end quantity balance month order quantity 
from month end balance fact 
where year month in (select max(case when :v year month 
- :v year month/100*100 - 1 then 0 else year month end) 
from month end balance fact)) t 


group by year month, product sk; 

子 查询 将 累积 度量 表 和 月 周期 快照 表 做 并 集 操作 , 增加 上 月 的 累积 数据 。 最 外 层 查询 执行 
销售 数据 按 月 和 产品 的 分 组 聚合 。 最 内 层 的 case 语句 用 于 在 每 年 一 月 时 重新 归 零 再 累积 。 
v_year_month 是 年 月 参数 。 

4. 测试 

执行 月 周期 快照 函数 ， 装 载 2017 年 6 月 的 数据 。 

select fn month sum(201706); 

执行 累积 度量 定期 装载 脚本 ， 以 shell 命令 “date +%Y%m” 的 输出 作为 年 月 参数 传 入 

month balance sum.sql 文件 中 。 


su - gpadmin -c 'export PGPASSWORD=123456;psql -U dwtest -d dw -h hdp3 -v 
v year month-'''date *$Y$m''' -f -/month balance sum.sql' 


执行 和 前 面 初始 装载 后 相同 的 查询 ， 周 期 快照 表 和 累积 度量 表 的 查询 结果 分 别 如 下 所 示 。 
year month | psk | amt | qty 


------------ 4-----4-----------4----- 
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201603 | 1 | 89488.00 | 
201603 | 2 | 101670.00 | 
201604 | L o 79238-00] 
201604 | 25 io 752047100) | 
201605 | 1 | 44757.00 | 
201605 | 2 65415-00] 
201606 | 1 74628-00] 
201606 | 2 | 41790.00 | 
201705 | X I 85107-00 S82 
201705 C2 i S770700 eset 
201705 | at || 3087.00 | 11 
201705 | 4 | 49666.00 | 393 
201705 | S- Wp 57833.00 397 
201706 | ST 2263.00 | 80 
201706 | 24 | 6869.00 | 30 
201706 | S 9554.00 | 38 

(16 rows) 
year_month psk amt | qty 


l 
+ 





201603 | 1 | 89488.00 | 
201603 | 2 | 101670.00 | 
201604 | 1 | 168726.00 | 
201604 | 2 | 176874.00 | 
201605 | 1 | 213483.00 | 
201605 | 2 | 242289.00 | 
201606 | tl 2881100" 
201606 | 2 | 284079.00 | 
201705 | 1 | 85107.00 | 582 
201705 | 2 1 5d70/:00 19361 
201705 | = || 3087.00 | 11 
201705 | 4 | 49666.00 | 393 
201705 | by | 57833.00] 391 
201706 | 1 | 87370.00 | 662 
201706 l 2 | 64576.00 391 
201706 | s || 3087.00 | 11 
201706 | 4 | 49666.00 | 393 
201706 | 5 | 67387.00 | 429 

(18 rows) 


可 以 看 到 ，2017 年 5 月 的 商品 销售 金额 和 数量 被 累积 到 了 2017 年 6 月 。 70581. 2. 58 
加 了 5、6 两 个 月 的 销售 数据 ， 产 品 3、4 在 6 月 没有 销售 ， 所 以 5 月 的 数据 顺延 到 6 月 。 
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5. 查询 


累积 度量 必须 小 心 使 用 ， 因 为 它 是 “ 半 可 加 ”的 。- 
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-个 半 可 加 度量 在 某 些 维度 通常 是 时 


间 维 度 ) 上 是 不 可 加 的 。 例 如 ， 可 以 通过 产品 正确 地 累加 月 底 累 积 销售 金额 。 


dw=> 

dw-> from month end balance fact 

dw-» group by year month 

dw-» order by year month; 

year month | S 

me reip ct. ASS SSR REE, 
201603 | 191158.00 
201604 | 345600.00 
201605 | 455772.00 
201606 | 572190.00 
201705 | 253400.00 
201706 | 272086.00 

(6 rows) 


select year_month, sum(month_end_amount_balance) s 


而 当 通 过 月 份 累加 月 底 金 额 时 : 


dw=> 

dw-> from month end balance fact a, 

dw-> product dim b 

dw-> where a.product sk = b.product sk 

dw-> group by product name 

dw-> order by product name; 
product_name l s 

flat panel 99332.00 

floppy drive 927195. 00 


select product_name, sum(month_end_amount_balance) s 


keyboard 


lcd 


l 
l 
hard disk drive | 932285.00 
l 
l 


panel 


(5 rows) 


以 上 查询 结果 是 错误 的 。 正 确 的 结果 应 该 和 下 面 的 在 month end sales order fact # EE 
行 的 查询 结果 相同 。 


dw=> 
dw-> 
dw-> 
dw-> 
dw-> 
dw-> 


125220.00 
6174.00 


select product_name, sum(month_order_amount) s 


from month_end sales order fact a, 


where a.product_sk = b.product_sk 


product_dim b 


group by product_name 


order by product_name; 


product_name l s 
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E 
flat panel | 49666.00 
floppy drive | 348655.00 
hard disk drive | 375481.00 
keyboard | 67387.00 
lcd panel | 3087.00 
(5 rows) 


注意 ， 迟 到 的 事实 对 累积 度量 的 影响 非常 大 。 例 如 ，2016 年 1 月 的 数据 到 了 2017 4E 1 月 
才 进 入 数据 仓库 ， 那 么 2016 年 2 月 以 后 每 个 月 的 累积 度量 都 要 改变 。 如 果 重 点 考虑 迟到 事实 
数据 和 HAWQ 无 法 行 级 更 新 的 限制 ， 也 许 使 用 查询 视图 方式 实现 累积 度量 是 更 好 的 选择 。 


create view v month end balance fact as 
select a.year month, b.product sk, 
sum(b.month order amount) month order amount, 
sum(b.month order quantity) month order quantity 
from (select distinct year month, year month/100 yearl, 
year month - year month/100*100 month1l 
from v month end sales order fact) a, 
(select *, year month/100 yearl, year month - year month/100*100 monthl, 
max(year month) over () max year month 
from month end sales order fact) b 
where a.year month «- b.max year month 
and a.yearl = b.yearl and b.monthl <= a.monthl 
group by a.year month, b.product sk; 





小 结 


事务 事实 表 、 周 期 快 昭 事实 表 和 累积 快照 事实 表 是 多 维 数据 仓库 中 常见 的 三 种 事实 表 。 定 
期 历史 数据 可 以 通过 周期 快照 获取 , 细节 数据 被 保存 到 事务 粒度 事实 表 中 , 而 对 于 具有 多 个 定 
义 良好 里 程 碑 的 处 理工 作 流 ， 则 可 以 使 用 累积 快照 。 无 事实 事实 表 是 没有 任何 度量 的 事实 表 ， 
它 本 质 上 是 一 组 维度 的 交集 。 用 这 种 事实 表 记 录 相 关 维 度 之 间 存 在 多 对 多 关系 , 但 是 关系 上 没 
有 数字 或 者 文本 的 事实 。 无 事实 事实 表 为 数据 仓库 设计 提供 了 更 多 的 灵活 性 。 迟到 的 事实 指 的 
是 到 达 ETL 系统 的 时 间 晚 于 事务 发 生 时 间 的 度量 数据 。 必 须 对 标准 的 ETL 过 程 进行 特殊 修改 
以 处 理 迟 到 的 事实 。 需要 确定 事务 发 生 时 间 点 的 有 效 的 维度 代理 键 , 还 要 调整 后 续 事 实行 中 的 
所 有 半 可 加 度量 。 此 外 , 迟到 事实 可 能 还 会 引起 周期 快照 事实 表 的 数据 更 新 。 累 积 度量 指 的 是 
聚合 从 序列 内 第 一 个 元 素 到 当前 元 素 的 数据 。 累积 度量 是 半 可 加 的 , 因此 对 累积 度量 执行 聚合 
计算 时 要 格外 注意 分 组 的 维度 。 
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第 18 & 
< 联机 分 析 处 理 > 


前 面 两 章 通过 实例 演示 了 常见 的 维度 表 和 事实 表 技 术 ， 主 要 目的 是 为 了 说 明 HAWQ 及 其 
Hadoop 生态 圈 工 具 ， 如 Sqoop, Oozie, Falcon 等 ， 完 全 有 能 力 处 理 传统 多 维 数据 仓库 中 碰 到 
的 各 种 情况 。 但 是 ， 从 完整 的 数据 仓库 生命 周期 角度 看 ， 还 有 很 重要 的 一 部 分 没有 涉及 ， 那 就 
是 数据 分 析 与 结果 展现 ， 本 章 将 讨论 这 方面 的 问题 。 在 介绍 了 联机 分 析 处 理 的 相关 概念 后 , 我 
们 会 结合 销售 订单 示例 ， 列 举 典型 的 数据 分 析 问 题 ， 使 用 HAWQ 具体 实现 ， 并 用 Zeppelin X 
行 交 互 式 查 询 与 数据 图 形 化 展示 。 








联机 分 析 处 理 简 介 


18.1.1 概念 


联机 分 析 处 理 又 被 称 为 OLAP, 是 英文 On-Line Analytical Processing 的 缩写 。 此 概念 最 早 
由 关系 数据 库 之 父 E.F.Codd 于 1993 年 提出 。OLAP 允许 以 一 种 称 为 多 维 数据 集 的 结构 ,访问 
业务 数据 源 经 过 聚合 和 组 织 整理 后 的 数据 。 以 此 为 标准 , OLAP 作为 单独 的 一 类 技术 同 联机 事 
务 处 理 (On-Line Transaction Processing, OLTP) 得 以 明显 区 分 。 

在 计算 领域 ,OLAP 是 一 种 快速 应 答 多 维 分 析 查 询 的 方法 , 也 是 商业 智能 的 一 个 组 成 部 分 ， 
与 之 相关 的 概念 还 包括 数据 仓库 、 报 表 系 统 、 数 据 挖掘 等 。 数 据 仓 库 用 于 数据 的 存储 和 组 织 ， 
OLAP 集中 于 数据 的 分 析 ， 数 据 挖掘 则 致力 于 知识 的 自动 发 现 ， 报 表 系统 侧 重 于 数据 的 展现 。 
OLAP 系统 从 数据 仓库 中 的 集成 数据 出 发 , 构建 面向 分 析 的 多 维 数据 模型 ,再 使 用 多 维 分 析 方 
法 从 多 个 不 同 的 视角 对 多 维 数据 集合 进行 分 析 比 较 ， 分 析 活 动 以 数据 驱动 。 通 过 使 用 OLAP 
工具 ， 用 户 可 以 从 多 个 视角 交互 式 地 查询 多 维 数据 。 

OLAP 由 三 个 基本 的 分 析 操 作 构 成 : 合并 (上 卷 )、 下 钻 和 切片 。 合 并 是 指数 据 的 聚合 ， 
即 数据 可 以 在 一 个 或 多 个 维度 上 进行 累积 和 计算 。 例 如 , 所 有 的 营业 部 数据 被 上 卷 到 销售 部 门 
以 分 析 销 售 趋势 .。 下 钻 是 一 种 由 汇总 数据 向 下 浏览 细节 数据 的 技术 。 比 如 用 户 可 以 从 产品 分 类 
的 销售 数据 下 钻 查 看 单个 产品 的 销售 情况 。 切 片 则 是 这 样 一 种 特性 ， 通 过 它 用 户 可 以 获取 





OLAP 立方 体 中 的 特定 数据 集合 ， 并 从 不 同 的 视角 观察 这 些 数 据 。 这 些 观察 数据 的 视角 就 是 我 
们 所 说 的 维度 。 例 如 通过 经 销 商 、 日 期 、 客 户 、 产 品 或 区 域 等 等 ， 查 看 同一 销售 事实 。 

OLAP 系统 的 核心 是 OLAP 立方 体 , 或 称 为 多 维 立方 体 或 超 立方 体 。 它 由 被 称 为 度量 的 数 
值 事实 组 成 ， 这 些 度量 被 维度 划分 归 类 。 一 个 OLAP 立方 体 的 例子 如 图 18-1 所 示 ， 数 据 单元 
位 于 立方 体 的 交叉 点 上 ， 每 个 数据 单元 跨越 产品 、 时 间 、 地 区 等 多 个 维度 。 通 常 使 用 一 个 矩阵 
接口 操作 OLAP 立方 体 ， 例 如 电子 表格 程序 的 数据 透视 表 ， 可 以 按 维 度 分 组 执行 聚合 或 求 平 
均值 等 操作 。 立方 体 的 元 数据 一 般 由 关系 数据 库 中 的 星 型 模式 或 雪花 模式 生成 , 度量 来 自 事实 
表 的 记录 ， 维 度 来 自 维度 表 。 


数据 单元 





图 18-1 OLAP 立方 体 


18.1.2 分 类 
通常 可 以 将 联机 分 析 处 理 系 统 分 为 MOLAP、ROLAP、HOLAP 三 种 类 型 。 
1. MOLAP 


MOLAP (multi-dimensional online analytical processing) 是 一 种 典型 的 OLAP 形式 ， 甚 至 
有 时 就 被 用 来 表示 OLAP, MOLAP 将 数据 存储 在 一 个 经 过 优化 的 多 维 数组 中 ， 而 不 是 存储 在 
关系 数据 库 中 。 某 些 MOLAP 工具 要 求 预先 计算 并 存储 计算 后 的 结果 数据 ， 这 种 操作 方式 被 
称 为 预 处 理 。MOLAP 工具 一 般 将 预计 算 后 的 数据 集合 作为 一 个 数据 立方 体 使 用 。 对 于 给 定 范 
围 的 问题 , 立方 体 中 的 数据 包含 所 有 可 能 的 答案 。 预 处 理 的 好 处 是 可 以 对 问题 做 出 非常 快速 的 
响应 。 但 另 一 方面 ， 依 赖 于 预计 算 的 聚合 程度 ， 装 载 新 数据 可 能 会 花费 很 长 的 时 间 。 另 外 还 有 
些 MOLAP 工具 ， 尤 其 是 那些 实现 了 某 些 数 据 库 功 能 的 MOLAP 工具 ， 并 不 预先 计算 原始 数 
据 ， 而 是 在 需要 时 才 进 行 计算 。 

MOLAP 的 优点 : 

O ”优化 的 数据 存储 、 多 维 数据 索引 和 缓存 带 来 的 快速 查询 性 能 。 

o 相对 于 关系 数据 库 ， 可 以 通过 压缩 技术 ， 使 数据 存储 需要 更 小 的 磁盘 空间 。 

€  MOLAP 工具 一 般 能 够 自动 进行 高 级 别 的 数据 聚合 。 

© ”对 于 低 基数 维度 的 数据 集合 是 紧凑 的 。 
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e 数组 模型 提供 了 原生 的 索引 功能 。 
MOLAP 的 缺点 : 


© 某 些 MOLAP 解 决 方案 中 的 处 理 步骤 可 能 需要 很 长 的 时 间 ， 尤 其 是 当 数据 量 很 大 时 。 
要 解决 这 个 问题 ， 基 本 只 能 增 量 处 理 变化 的 数据 ， 而 不 是 预 处 理 整个 数据 集合 。 
@ 可 能 引入 较 多 的 数据 宛 余 。 
MOLAP 产品 : 
商业 的 MOLAP 产品 主要 有 Cognos Powerplay. Oracle Database OLAP Option, 
MicroStrategy、Microsoft Analysis Services、Essbase 等 。 


2. ROLAP 

ROLAP 直接 使 用 关系 数据 库存 储 数据 ， 不 需要 执行 预计 算 。 基 础 的 事实 数据 及 其 维度 表 
作为 关系 表 被 存储 ， 而 聚合 信息 存储 在 新 创建 的 附加 表 中 。ROLAP 以 数据 库 规 范 化 设计 为 基 
础 ， 操 作 存 储 在 关系 数据 库 中 的 数据 ， 实 现 传统 的 OLAP 数据 切片 和 分 块 功能 。 本 质 上 讲 ， 
每 种 数据 切片 或 分 块 行为 都 等 同 于 在 SQL 语句 中 增加 一 个 WHERE " 子 句 的 过 滤 条 件 .ROLAP 
不 使 用 预计 算 的 数据 立方 体 , 取而代之 的 是 查询 标准 的 关系 数据 库 表 , 返回 回答 问题 所 需 的 数 
据 。 与 预计 算 的 MOLAP 不 同 ，ROLAP 工具 有 能 力 回答 任意 相关 的 数据 分 析 问 题 ， 因 为 该 技 
术 不 受 立 方 体内 容 的 限制 。 通 过 ROLAP 还 能 够 下 钻 到 数据 库 中 存储 的 最 细节 的 数据 。 

由 于 ROLAP 使 用 关系 数据 库 ， 通 常数 据 库 模 式 必 须 经 过 仔细 设计 。 为 OLTP 应 用 设计 的 
数据 库 不 能 直接 作为 ROLAP 数据 库 使 用 ， 这 种 投机 取 巧 的 做 法 并 不 能 使 ROLAP 良好 工作 。 
因此 ROLAP 仍然 需要 创建 额外 的 数据 复制 。 但 不 管 怎样 ，ROLAP 毕竟 用 的 是 数据 库 ， 各 种 
各 样 的 数据 库 设 计 与 优化 技术 都 可 以 被 有 效 利用 。 

ROLAP 的 优点 : 


© ”在 处 理 大 量 数据 时 , ROLAP 更 具 可 伸缩 性 , 尤其 当 模 型 中 包含 的 维度 具有 很 高 基数 ， 
如 维度 表 中 有 上 百 万 的 成 员 时 。 

@ 有 很 多 可 选用 的 数据 装载 工具 ， 并 且 能 够 针对 特定 的 数据 模型 精细 调整 ETL 代码 ， 
数据 装载 所 需 时 间 通 常 比 自动 化 的 MOLAP 装载 少 得 多 。 

© 因为 数据 存储 于 标准 关系 数据 库 中 ， 可 以 使 用 SQL 报表 工具 访问 数据 ， 而 不 必 是 专 
有 的 OLAP 工具 。 

€ ROLAP 更 适合 处 理 非 聚 合 的 事实 ， 例 如 文本 型 描述 。 在 MOLAP 工具 中 查询 文本 型 
元 素 时 性 能 会 相对 较 差 。 

© ”通过 将 数据 存储 从 多 维 模型 中 解 罚 出 来 ,相对 于 用 使 用 严格 的 维度 模型 ， 这 种 更 普通 
的 关系 模型 增加 了 成 功 建 模 的 可 能 性 。 

€ ROLAP 方法 可 以 利用 数据 库 的 权限 控制 ， 例 如 通过 行 级 安全 性 设置 ， 可 以 用 事先 设 
定 的 条 件 过 滤 查 询 结果 。 如 Oracle 的 VPD 技术 ， 能 够 根据 连接 的 用 户 自动 在 查询 的 
SQL 语句 中 拼接 WHERE 谓词 条 件 。 
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ROLAP 的 缺点 : 


€ ”业界 普遍 认为 ROLAP 工具 比 MOLAP 查询 速度 慢 。 
© 聚合 表 的 数据 装载 必须 由 用 户 自己 定制 的 ETL 代码 控制 .ROLAP 工具 不 能 自动 完成 
这 个 任务 ， 这 意味 着 额外 的 开发 工作 量 。 
@ 如果 跳 过 创建 聚合 表 的 步骤 ,查询 性 能 会 大 打折 扣 , 因为 不 得 不 查询 大 量 的 细节 数据 
表 。 虽然 可 以 通过 适当 建立 聚合 表 缓 解 性 能 问题 ,但 对 所 有 维度 表 及 其 属性 的 组 合 创 
建 聚合 表 是 不 切实 际 的 。 
€ ROLAP 依赖 于 针对 通用 查询 或 缓存 目标 的 数据 库 ， 因 此 并 没有 提供 某 些 MOLAP 工 
具 所 具有 的 特殊 技术 ， 如 透视 表 等 。 但 是 现代 ROLAP 工具 可 以 利用 SQL 语言 中 的 
CUBE、ROLLUP 操作 或 其 他 SQL OLAP 扩展 。 随 着 这 些 SQL 扩展 的 逐步 完善 ， 
MOLAP 工具 的 优势 也 不 那么 明显 了 。 
© 因为 ROLAP 工具 的 所 有 计算 都 依赖 于 SQL， 对 于 某 些 不 易 转化 为 SQL 的 计算 密集 
型 模型 ，ROLAP 不 再 适用 。 如 地 理 位 置 计算 的 场景 。 
ROLAP 产品 : 
使 用 ROLAP 的 商业 产品 包括 Microsoft Analysis Services. MicroStrategy. SAP Business 
Objects、Oracle Business Intelligence Suite Enterprise Edition、Tableau Software 等 等 。 也 有 开源 
的 ROLAP 服务 器 ， 如 Mondrian。 


3. HOLAP 

在 额外 的 ETL 开发 成 本 与 缓慢 的 查询 性 能 之 间 难 以 选择 ， 正 是 因为 这 种 情况 ， 现 在 大 部 
分 商业 OLAP 工具 都 使 用 一 种 混合 型 (Hybrid) 方法 ， 它 允许 模型 设计 者 决定 哪些 数据 存储 在 
MOLAP 中 ， 哪 些 数据 存储 在 ROLAP 中 。 除 了 把 数据 划分 成 传统 关系 型 存储 和 专 有 存储 ， 业 
界 对 混合 型 OLAP 并 没有 清晰 的 定义 。 例 如 , 某 些 厂商 的 HOLAP 数据 库 使 用 关系 表 存 储 大 量 
的 细节 数据 ， 而 是 用 专用 表 保存 少量 的 聚合 数据 。HOLAP 结合 了 MOLAP 和 ROLAP 两 种 方 
法 的 优点 ， 可 以 同时 利用 预计 算 的 多 维 立 方 体 和 关系 数据 源 。HOLAP 有 以 下 两 种 划分 数据 的 
策略 。 


e ŻEE. 这 种 模式 的 HOLAP 将 聚合 数据 存储 在 MOLAP 中 ， 以 支持 良好 的 查询 性 
能 ， 而 把 细节 数据 存储 在 ROLAP 中 以 减少 立方 体 处 理 所 需 时 间 。 

€ 水平 分区。 这 种 模式 的 HOLAP 按 数据 热度 划分 ， 将 某 些 最 近 使 用 的 数据 分 片 存储 在 
MOLAP 中 ， 而 将 老 的 数据 存储 在 ROLAP。 


18.1.3 性 能 


OLAP 分 析 所 需 的 原始 数据 量 是 非常 庞大 的 。 一 个 分 析 模 型 ,往往 会 涉及 数 千 万 或 数 亿 条 
甚至 更 多 的 数据 ， 而 且 分 析 模 型 中 包含 多 个 维度 数据 ， 这 些 维度 又 可 以 由 用 户 作 任意 的 组 合 。 
这 样 的 结果 就 是 大 量 实时 运算 导致 过 长 的 响应 时 间 。 想 象 一 个 1000 万 条 记录 的 分 析 模型 ， 如 
果 一 次 提取 4 个 维度 进行 组 合 分 析 ， 每 个 维度 有 10 个 不 同 的 取 值 ， 理 论 上 的 运算 次 数 将 达到 
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10 的 12 次 方 。 这 样 的 运算 量 将 导致 数 十 分 钟 乃至 更 长 的 等 待 时 间 。 如 果 用 户 对 维 组 合 次 序 进 
行 调 整 ， 或 增加 、 或 减少 某 些 维度 的 话 ， 又 将 是 一 个 重新 计算 过 程 。 

从 上 面 的 分 析 中 可 以 得 出 结论 , 如 果 不 能 解决 OLAP 运算 效率 问题 的 话 , OLAP 将 只 会 是 
一 个 没有 实用 价值 的 概念 。 在 OLAP 的 发 展 历史 中 ， 常 见 的 解决 方案 是 用 多 维 数 据 库 代 替 关 
系数 据 库 设 计 , 将 数据 根据 维度 进行 最 大 限度 的 聚合 运算 ,运算 中 会 考虑 到 各 种 维度 组 合 情 况 ， 
运算 结果 将 生成 一 个 数据 立方 体 ， 并 保存 在 磁盘 上 ， 用 这 种 预 运 算 方式 提高 OLAP 的 速度 。 
例如 Kylin 就 是 使 用 这 种 以 空间 换 时 间 的 方式 来 提高 查询 速度 。 而 HAWQ 在 性 能 上 的 优势 ， 
也 使 它 较为 适合 OLAP 应 用 。HAWQ 与 Impala 和 Hive 的 性 能 对 比 ， 参 见 1.4.2 节 。 





18.2 联机 分 析 处 理 实例 


18.2.1 销售 订单 


要 做 好 OLAP 类 的 应 用 ， 需 要 对 业务 数据 有 深入 的 理解 。 只 有 了 解 了 业务 ， 才 能 知道 需 
要 分 析 哪些 指标 ， 从 而 有 的 放 矢 地 剖析 相 关 数 据 ， 得 出 可 信 的 结论 来 辅助 决策 。 下 面 就 以 销售 
订单 数据 仓库 为 例 ， 提 出 若干 问题 ， 然 后 使 用 HAWQ 查询 数据 以 回答 这 些 问 题 : 


(1) 每 种 产品 类 型 以 及 单个 产品 的 累积 销售 量 和 销售 额 是 多 少 ? 

(2) 每 种 产品 类 型 以 及 单个 产品 在 每 个 省 、 每 个 城市 的 月 销售 量 和 销售 额 趋势 是 什么 ? 
(3) 每 种 产品 类 型 销售 量 和 销售 额 的 同比 如 何 ? 

(4) 每 个 省 以 及 每 个 城市 的 客户 数量 及 其 消费 金额 汇总 是 多 少 ? 

(5) 迟到 订单 的 比例 是 多 少 ? 

(6) 客户 年 消费 金额 的 平均 数 和 中 位 数 是 多 少 ? 

CD 客户 年 消费 金额 分 布 处 于 25%、50%、75% 位 置 的 消费 金额 是 多 少 ? 

(8) 客户 年 消费 金额 为 “高 ”、“ 中 ”、“ 低 ” 档 的 人 数 及 消费 金额 所 占 比例 是 多 少 ? 
(9) 每 个 城市 按 销 售 金额 排 在 前 三 位 的 商品 是 什么 ? 

(10) 所 有 产品 的 销售 百分比 排名 ? 


1. 每 种 产品 类 型 以 及 单个 产品 的 累积 销售 量 和 销售 额 是 多 少 
使 用 HAWQ 的 group by rollup 求 小 计 和 总 计 。 


dw=> select t2.product_category, t2.product_name, sum(nq), sum(order_amount) 
dw-> from v sales order fact tl, product dim t2 

dw-» where tl.product sk - t2.product sk 

dw-» group by rollup (t2.product category, t2.product name) 

dw-» order by t2.product category, t2.product name; 

product category | product name | sum | sum 

------------------ 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 
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monitor | flat panel | | 49666.00 
monitor | lcd panel | 11 | 3087.00 
monitor | [ET eS 2755100 
peripheral | keyboard | 38 | 67387.00 
peripheral | I 38: | -67387.00 
storage | floppy drive | 52 | 348655.00 
storage | hard disk drive | 80 | 375481.00 
storage | | 132 | 724136.00 

| | 181 | 844276.00 
(9 rows) 


2. 每 种 产品 类 型 以 及 单个 产品 在 每 个 省 、 每 个 城市 的 月 销售 量 和 销售 额 是 多 少 


查询 语句 与 上 一 个 问题 类 似 ， 只 是 多 关联 了 邮编 维度 表 ， 并 且 在 group by rollup 中 增加 了 
省 、 市 两 列 。 

dw=> select t2.product category, t2.product_name, t3.state, t3.city, 

dw-> sum(nq), sum(order amount) 

dw-> from v sales order fact tl, product dim t2, zip code dim t3 

dw-» where tl.product sk - t2.product sk 

dw-» and tl.customer zip code sk - t3.zip code sk 

dw-» group by rollup (t2.product category, t2.product name, t3.state, t3.city) 

dw-» order by t2.product category, t2.product name, t3.state, t3.city; 


product category | product name | state | city | sum | 
sum 

------------------ +-----------------+-------+---------------+-----+------- 

monitor | flat panel | oh | cleveland | | 7431.00 
monitor | flat panel | oh | | | 7431.00 
monitor | flat panel | pa | mechanicsburg | | 10630.00 
monitor | flat panel | pa | pittsburgh | | 31605.00 
monitor | flat panel | pa | | | 42235.00 
monitor | flat panel | | | | 49666.00 
monitor | lcd panel | pa | pittsburgh TESTI 3037200) 
monitor | lcd panel | pa | | 31 | 3087.00 
monitor | lcd panel | | | 31 i 3087-00 
monitor | | | 11 || 52753.00 
peripheral | keyboard | oh | cleveland 38 | 10875.00 
peripheral | keyboard | oh | 38 | 10875.00 
peripheral | keyboard | pa | mechanicsburg | | 29629.00 
peripheral | keyboard | pa | pittsburgh | | 26883.00 
peripheral | keyboard | pa | | 56512.00 
peripheral | keyboard | | 38 | 67387.00 
peripheral | | | 38 | 67387.00 
storage | floppy drive | oh | cleveland | 8229.00 
storage | floppy drive | oh | | 8229.00 
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storage 
storage 
storage 
storage 
storage 
storage 
storage 
storage 
storage 
storage 
storage 


(31 rows) 


floppy drive 
floppy drive 
floppy drive 
floppy drive 
hard disk drive 
hard disk drive 
hard disk drive 
hard disk drive 
hard disk drive 
hard disk drive 


BBB 


oh 
oh 
pa 
pa 
pa 


mechanicsburg 


pittsburgh 


cleveland 


mechanicsburg 
pittsburgh 


3. 每 种 产品 类 型 销售 量 和 销售 额 的 同比 如 何 
需要 查询 周期 快照 v_ month. end sales order fact. 


dw=> select t2.product_category, 


dw-> 
dw-> 
dw-> 
dw-> 
dw-» 
dw-» 
dw-» 
dw-» 


tl.year month, 


sum(quantityl) quantity cur, 


sum(quantity2) quantity pre, 





l 
52 
52 
52 

| 
| 


140410.00 
200016.00 
340426.00 
348655.00 
8646.00 
8646.00 


80 | 194444.00 


| 
80 | 
80 | 
132 1 
181 | 


172391.00 
366835.00 
375481.00 
724136.00 
844276.00 


round((sum(quantityl) - sum(quantity2)) / sum(quantity2) ,2) 


pet_quantity, 
sum(amountl) amount cur, 


sum(amount2) amount pre, 


round((sum(amountl) - sum(amount2)) / sum(amount2),2) pct amount 


dw-» from (select tl.product sk, 


dw (> 
dw (> 
dw (> 
dw (> 
dw (> 
dw (> 
dw (> 
dw (> 
dw (> 
dw (> 
dw (> 
dw-> 


tl.year month, 


tl.month order quantity quantityl, 


t2.month order quantity quantity2, 


tl.month order amount amountl, 


t2.month order amount amount2 


from v month end sales order fact t1 


join v month end sales order fact t2 


on tl.product sk - t2.product sk 
and tl.year month/100 - 


and tl.year month - tl.year month/100*100 = 


t2.year month/100 + 1 


t2.year month - t2.year month/100*100) t1, 


product dim t2 


dw-> where tl.product sk = t2.product sk 


dw-» group by t2.product category, tl.year month 


dw-» order by t2.product category, tl.year month; 


product category | year month | quantity cur | quantity pre | pct quantity 


amount cur | amount pre | pct amount 


429 





storage | 201705 | 943 | | | 142814.00 | 110172.00 | 0.30 
storage | 201706 | 110 | | | 9132.00 | 116418.00 | -0.92 


(2 rows) 


4. 每 个 省 以 及 每 个 城市 的 客户 数量 及 其 消费 金额 汇总 是 多 少 


dw=> select t2.state, 


dw-> EZ city, 
dw-» count(distinct customer sk) sum customer num, 
dw-> sum(order amount) sum order amount 


dw-» from v sales order fact tl, zip code dim t2 
dw-» where tl.customer zip code sk - t2.zip code sk 
dw-» group by rollup (t2.state, t2.city) 

dw-> order by t2.state, t2.city; 





state | city | sum_customer_num | sum_order_amount 
=$ =n 

oh | cleveland | | 35181.00 
oh l | l 35181.00 
pa | mechanicsburg | | 375113700 
pa | pittsburgh | 12 | 433982.00 
pa | l 20 | 809095.00 

1 | 24 | 844276.00 
(6 rows) 
5. 迟到 订单 的 比例 是 多 少 
注意 ，sum late 需要 显 式 转化 为 numeric 数据 类 型 。 
dw=> select sum total, sum late, 
dw-> round(cast(sum late as numeric)/sum_total,4) late pct 
dw-» from (select sum(case when status date sk « entry date sk then 1 
dw (> else 0 end) sum_late, 
dw (> count (*) sum total 
dw (> from sales order fact) t; 


sum total | sum late | late pct 


(1 row) 


6. 客户 年 消费 金额 的 平均 数 和 中 位 数 是 多 少 
分 别 使 用 两 种 方法 求 得 平均 数 和 中 位 数 。HAWQ 为 分 析 型 应 用 提供 了 


dw=> select round(avg(sum_order_amount),2) avg_amount, 





的 聚合 函数 。 





dw-> round (sum(sum order amount)/count(customer sk),2) avg amountl, 
dw-» percentile cont(0.5) within group (order by sum order amount) 
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dw-> median_amount, 
dw-> median(sum order amount) median amountl 


dw-> from (select customer sk,sum(order amount) sum order amount 


dw (> from v sales order fact 

dw (> group by customer_sk) t1; 

avg amount | avg_amount1l | median amount | median amountl 

------------ 4-------------4---------------4---------------- 
35178.17 | 35178-17] 14277 | 14277 


(1 row) 


7. 客户 年 消费 金额 分 布 处 于 25%、50%、75% 位 置 的 消费 金额 是 多 少 


dw=> select percentile cont(0.25) within group (order by sum order amount desc) 


dw-» max amount 25, 
dw-» percentile cont(0.50) within group (order by sum order amount desc) 
dw-» max amount 50, 
dw-» percentile cont(0.75) within group (order by sum order amount desc) 
dw-» max amount 75 


dw-» from (select customer sk,sum(order amount) sum order amount 


dw (> from v sales order fact 

dw (> group by customer_sk) t1; 

max_amount_25 | max_amount_50 | max_amount_75 

Soe eR Mei Scie ei ee eet ere 
50536-5 | 14277 | 8342.25 

(1 row) 


8. 客户 年 消费 金额 为 “高 “中 ”“ 低 ” 档 的 人 数 及 消费 金额 所 占 比 例 是 多 少 
使 用 16.8 节 中 定义 的 分 段 进行 查询 。 


dw=> select yearl, 


dw-> bn, 

dw-» Cc count, 

dw-» sum band, 

dw-» sum total, 

dw-» round(sum band/sum total,4) band pct 
dw-» from (select count(a.customer sk) c count, 
dw (> sum(annual order amount) sum band, 
dw (> a.year yearl, 

dw (> band_name bn 

dw (> from annual_customer_segment_fact a, 
dw (> annual order segment dim b, 

dw (> annual sales order fact d 

dw (> where a.segment_sk = b.segment_sk 

dw (> and a.customer_sk = d.customer_sk 
dw (> and a.year = d.year 
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and b.segment name = 'grid' 


dw (> group by a.year, bn) tl, 

dw-> (select sum(annual_order_amount) sum_total 

dw (> from annual sales order fact) t2 

dw-» order by yearl, bn; 

yearl | bn | c count | sum band | sum total | band pct 

------- 十 -一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 -一 一 一 一 一 一 一 一 一 
2016 | high | 6 | 572190.00 | 572190.00 | 1.0000 

(1 row) 


9. 每 个 城市 按 销售 金额 排 在 前 三 位 的 商品 是 什么 


使 用 HAWQ 提供 的 窗口 函数 row_number(), 按 城 市 分 区 , 按 销 售 额 倒序 ， 取 得 销售 排名 。 


dw=> select case when tl.rn -1 then tl.city end city, 


dw-» t2.product name, 
dw-» tl.sum order amount, 
dw-» tl.rn 
dw-» from (select city, 
dw (> product_sk, 
dw (> sum order amount, 
dw (> row_number () 
dw (> over (partition by city order by sum order amount desc) rn 
dw(» from (select t2.state||':'||t2.city city, 
dw (> product_sk, 
dw (> sum(order_amount) sum_order_amount 
dw (> from v sales order fact tl, zip code dim t2 
dw (> where tl.customer zip code sk = t2.zip code sk 
dw (> group by t2.state||':'||t2.city, product sk) t) tl 
dw-» inner join product dim t2 on tl.product sk - t2.product sk 
dw-» where tl.rn «- 3 
dw-» order by tl.city, tl.rn; 
city | product name | sum order amount | rn 

------------------ 4----------------- 4------------------ 4---- 
oh:cleveland | keyboard 1 10875.00 | 1 

| hard disk drive | 8646.00 12 

| floppy drive | 8229.00 lines 
pa:mechanicsburg | hard disk drive | 194444.00 Ties: 

| floppy drive | 140410.00 ieee 

| keyboard | 29629.00 Ines 
pa:pittsburgh | floppy drive | 200016.00 | © 

| hard disk drive | 172391.00 1852 

| flat panel | 31605.00 Jus 
(9 rows) 


10. 所 有 产品 的 销售 百分比 排名 


dw=> select product_name, 

dw-> sum order amount, 

dw-> percent rank() over (order by sum order amount desc) rank 
dw-» from (select product sk,sum(order amount) sum order amount 

dw (> from v sales order fact 

dw (> group by product sk) tl, product dim t2 

dw-» where tl.product sk - t2.product sk 

dw-» order by rank; 


product name | sum order amount | rank 
cH See ees diceres eee de cnm ex exe otim Sese 
hard disk drive | 375481.00 | 0 
floppy drive | 348655.00 | 0.25 
keyboard | 67387.00 | 0.5 
flat panel l 49666.00 | 0.75 
lcd panel | 3087.00 | al 
(5 rows) 


18.2.2 ”行列 转 置 

OLAP 或 报表 系统 中 有 一 类 常见 需求 就 是 行列 转 置 。 HAWQ 提供 的 内 建 函 数 和 SQL 过 程 
语言 编程 功能 ， 使 行列 转 置 操作 的 实现 变 得 更 为 简单 。 

1. 行 转 列 

(1) 固定 列 数 的 行 转 列 

原始 数据 如 下 : 


test=# select * from score; 
name | subject | score 


Sh r-— 
— Ea | 80 
= | MF | 70 
= | 英语 1 60 
李 四 | 语文 1 90 
李 四 | 数学 | 100 
李 四 ”| 英语 1 80 
(6 rows) 
要 得 到 以 下 结果 : 
name | 语文 | 数学 | 英语 
----- $------+------+------ 
= 1 60 | 70) 60 
ÆW | 90 | 100 | 80 
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© 使 用 标准 SQL 


test=# select namey 

test-# max (case when subject = ' 语 文 ! then score else 0 end) as "X", test-# 
max (case when subject = ' 数 学 ' then score else 0 end) as "S£", test-# max (case 
when subject = ' 英 语 ' then score else 0 end) as "英语 " test-# from score 


test-# group by name order by name; 


name | 语文 | 数学 | 英语 


4 | 90 
(2 rows) 


此 方法 简单 并 具有 通用 性 ， 所 有 SQL 数据 库 都 支持 。 
© 使 用 内 建 聚合 函数 


test=# select name, 


test-# split part(split part(tmp,',',3),':',2) as "ix", 
test-# split part(split part(tmp,',',1),':',2) as "数学 "， 
test-# split part (split part(tmp,',',2),':',2) as "英语 " 


test-# from 


test-# (select name, 


test (# string_agg(subject||':'||score,',' order by subject) as tmp 
test (# from score 
test (# group by name) as t 


test-# order by name; 
name | 语文 | 数学 | 英语 


———— 十 -一 一 一 一 一 二 一 一 一 一 一 -十 -一 一 一- 一 
SI BO oe 
李 四 | 90 | 100 | 80 
(2 rows) 


在 子 查询 中 按 name 列 分 组 聚合 ， 使 用 string agg 函数 将 同一 name 的 subject 和 score 4% 

subject 顺序 连接 成 字符 串 。subject 与 score 用 “:” 连 接 ， 段 分 隔 符 为 “,”。 子 查询 的 结果 为 : 
test=# select name,string agg(subject||':'||score, ',' order by subject) as tmp 
test-# from score 


test-# group by name; 
name | tmp 


= | 数学 :70, 英 语 :60, 语 文 :80 
李 四 | 数学 :100, 英 语 :80, 语 文 :90 


(2 rows) 


外 层 查询 使 用 两 个 谋 套 的 split part. 函数 ， 将 字符 串 分 隔 成 列 。 内 层 split part. 取得 
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subject:score, YhJx split part 取得 相应 subject 的 score。 这 种 方法 利用 了 HAWQ 内 建 的 聚合 函 
数 ， 实 现 简洁 。 
(2) 不 定 列 数 的 行 转 列 
原始 数据 如 下 : 


test=# select * from 七 17 
cl c2 | c3 


使 用 PostgreSQL 的 tablefunc 扩展 模块 很 容易 实现 这 个 交叉 表 需 求 : 


Postgres=# select * from 
postgres-# crosstab3('select cl::text, c3, c2::text from tl order by cl, c3'); 


row name | category 1 | category 2 | category 3 


---------- 4------------4------------4------------ 
1 1 我 | 是 1 谁 

2 1 不 | | 

S | 道 | l 


(3 行 记录 ) 
遗憾 的 是 ，HAWQ 还 不 支持 tablefunc 扩展 。 由 于 结果 集 列 数 不 固定 ， 必 须 使 用 动态 SQL 
实现 ， 建 立 如 下 的 PLPGSQL 函数 : 


create or replace function fn_crosstab(refcursor) returns refcursor 
as $body$ 
declare 
v_colnum int; 
v sqlstring varchar(2000) := 'select cl '; 
begin 
-- 获得 最 大 列 数 
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HAWQ 数据 仓库 与 数据 挖掘 实战 


服务 器 游标 默认 只 能 在 一 个 事务 中 存在 ， 事 务 结束 自动 销毁 。 如 果 没 用 BEGIN 开启 一 个 





事务 , 任何 一 条 语句 都 是 一 个 事务 (类 似 于 MySQL 的 autocommit) , 则 select fn. crosstab('curl") 
所 建立 的 游标 会 被 立即 销毁 。 
2. 列 转行 
COD 单行 变 多 行 
原始 数据 如 下 : 
test=# select * from book; 
id | name | tag 
—— M AM 
1] Java | aa,bb,cc 
2 | C++ | dd,ee 


(2 rows) 


要 得 到 以 下 的 结果 : 


name | tag | rn 
6o "cC E Pc 
Java | aa Te 
Java | bb | 2 
Java | cc | 3 
(£e Aa || x 
Ctr | ee 2 


HAWQ 2.1.1.0 基于 PostgreSQL 8.2.15, 因此 还 不 包含 generate_subscripts()、array_length()、 
unnest(array) with ordinality 等 函数 功能 。 为 了 给 每 个 name 的 tag 按 原始 位 置 增加 序号 ， 需 要 


建立 以 下 函数 ， 返 回 数组 值 及 其 对 应 的 下 标 : 


create or replace function f unnest ord 
(anyarray, out val anyelement, out ordinality integer) 
returns setof record language sql immutable as 
'select $1[i], i - array lower($1,1) * 1 
from generate series(array lower($1,1), array upper($1,1)) i'; 


然后 执行 查询 : 
test=# select name, (rec) .val tag, (rec).ordinality rn 


test-# from 
test-# (select *, f unnest ord(arr) as rec 


from (select id, name, string to array(tag, ',') arr from book) t) 


test (4 
ttest-# order by id, rn; 


name | tag | rn 
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(2) 多 列 转 多 行 
原始 数据 如 下 : 





要 得 到 以 下 结果 : 





可 以 看 到 ， 原 数据 只 有 三 行 ， 而 结果 是 六 行 数据 。 要 获得 希望 的 结果 ， 最 重要 的 是 如 何 从 
现 有 的 行 构造 出 新 的 数据 行 。 下 面 用 三 种 方法 实现 。 
CD 直接 的 方法 一 一 union 
用 SQL 的 并 集 操作 符 union 是 最 容易 想到 的 方法 。 
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© 灵活 的 方法 一 一 笛 卡 儿 积 

union 虽然 直接 ， 但 太 过 死板 。 如 果 列 很 多 ， 需 要 闭 加 很 多 的 union all， 凸 显 乏 味 。 更 灵 
活 的 方法 是 通过 笛 卡 儿 积 运算 构造 数据 行 。 这 种 方法 的 关键 在 于 需要 一 个 所 需 行 数 的 辅助 表 。 
许多 关系 数据 库 都 提供 相应 的 方法 ， 例 如 Oracle 用 connect by level、MySQL 用 数字 辅助 表 、 
PostgreSQL 用 generate. serie 函数 等 。 


test=# select * 
test-# from (select cl, 


test (# case when t2=1 then c2 

test (# when t2=2 then c3 

test (# else c4 

test (# end c2, 

test (# CE3 

test (# from (select * from tl, generate series(1,3) t2) t) t 


test-# where c2 <> '' 
test-# order by cl, c3; 
ely c2 es: 


© 独特 的 方法 一 一 unnest 
前 面 两 种 是 相对 通用 的 方法 ,关系 数据 库 的 SQL 都 支持 , 而 unnest 是 PostgreSQL 独 有 的 
函数 。 有 了 前 面 的 基础 ， 这 个 实现 就 比较 简单 了 ， 只 要 执行 下 面 的 查询 即 可 。 


test=# select * 
test-# from (select cl,split part(unnest(c2),':',1) c2, 


test (# split part(unnest(c2),':',2) c3 
test (4 from (select cl,string to array(c2,',') c2 
test (4 from (select cl, 

test (4 coalesce (c2,'') || ':1,' |l 
test (4 coalesce (c3, '')||':2,'' |I 
test (4 coalesce(c4,'')||':3' c2 
test (# from tl) t) t) t 


test-# where c2 <> '' 
test-# order by cl, c3; 
Cl | c2 | c3 
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交互 查询 与 图 形 化 显示 


18.3.1 Zeppelin 简介 

Zeppelin 是 一 个 基于 Web 的 软件 ， 用 于 交互 式 地 数据 分 析 。 它 一 开始 是 Apache 软件 基金 
AUCH. 2016 年 5 月 正式 成 为 顶级 项 目 。Zeppelin 描述 自己 是 一 个 可 以 进行 数据 摄取 、 
数据 发 现 、 数 据 分 析 、 数 据 可 视 化 的 笔记 本 ， 用 以 帮助 开发 者 、 数 据 科学 家 以 及 相关 用 户 更 有 
效 地 处 理 数据 ， 而 不 必 使 用 复杂 的 命令 行 ， 也 不 必 关 心 集群 的 实现 细节 。Zeppelin 的 架构 如 图 
18-2 所 示 。 





Zeppelin Architecture 


Client 


| HTTP Rest / Websocket 


Server 
Classloader | Thrift 
InterpreterGroup InterpreterGroup 
Interpreter | | Interpreter | +++ Interpreter | | Interpreter 





Seprate JVM process 





图 18-2 Zeppelin 架构 


从 上 图 中 可 以 看 到 ，Zeppelin 具有 客户 端 /服务 器 架构 ， 客 户 端 一 般 就 是 指 浏览 器 。 服 务 
器 接收 客户 端的 请 求 ， 并 将 请 求 通过 Thrift 协议 发 送 给 翻译 器 组 。 翻 译 器 组 物理 表现 为 JVM 
进程 ,负责 实际 处 理 客户 端的 请 求 并 与 服务 器 进行 通信 。 翻译 器 是 一 个 插件 式 的 体系 结构 ， 允 
许 任 何 语言 或 后 端 数 据 处 理 程序 以 插件 的 形式 添加 到 Zeppelin 中 .特别 需要 指出 的 是 , Zeppelin 
内 建 Spark 翻译 占 ， 因 此 不 需要 构建 单独 的 模块 、 插 件 或 库 。 翻 译 器 的 架构 如 图 18-3 所 示 。 
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Zeppelin Interpreter Architecture 


Interpreter is connector between Zeppelin and Backend data processing system. 





























ZeppelinServer 
Thrift | 
InterpreterGroup Spark 
Interpreter | | Interpreter jl Interpreter Spark | PySpark SparkSQL Dep 






































Separate IVM process 











Load 
libraries 


$oarkt maven 


Spark cluster. Maven repository 


Share single SparkDriver 














18-3 Zeppelin 翻译 器 架构 
当前 的 Zeppelin 已 经 支持 很 多 翻译 器 ， 如 Zeppelin 0.6.0 版 本 自 带 的 翻译 器 有 alluxio、 


cassandra、file、hbase、ignite、kylin、md、phoenix、sh、tajo、angular、elasticsearch、flink、 
hive、jdbc、lens、psql、spark 等 18 种 之 多 。 插 件 式 架 构 允许 用 户 在 Zeppelin 中 使 用 自己 熟悉 
的 特定 程序 语言 或 数据 处 理 方式 ,例如 ,通过 使 用 %spark 翻译 器 , 可 以 在 Zeppelin 中 使 用 Scala 
语言 代码 。 在 数据 可 视 化 方面 Zeppelin 已 经 包含 一 些 基 本 的 图 表 ， 如 柱状 图 、 饼 图 、 线 形 图 、 
散 点 图 等 ， 任 何 支持 的 后 端 语言 输出 都 可 以 被 图 形 化 表示 。 

在 Zeppelin 中 ， 用 户 建立 的 每 一 个 查询 叫做 一 个 note, note 的 URL 在 多 用 户 间 共 享 ， 
Zeppelin 将 向 所 有 用 户 实时 广播 note 的 变化 。Zeppelin 还 提供 一 个 只 显示 查询 结果 的 URL, 
该 网 页 不 包括 任何 菜单 和 按钮 。 用 这 种 方式 可 以 方便 地 将 结果 页 作为 一 帧 嵌入 到 自己 的 Web 
站 点 中 。 


18.3.2 ”使 用 Zeppelin 执行 HAWQ 查询 


1. 安装 Zeppelin 
HDP 2.5.0 安装 包 中 已 经 集成 了 Zeppelin 0.6.0， 因 此 不 需要 单独 进行 复杂 的 安装 配置 ， 只 
要 启动 Zeppelin 服务 就 可 以 了 。 
2. 配置 Zeppelin 支持 HAWQ 
Zeppelin 0.6.0 通过 JDBC 解析 HAWQ 查询 ， 只 需 进 行 简单 的 配置 即 可 ， 步 骤 如 下 。 
(1) 在 Ambari 控制 台 主 页 面 中 ， 单 击 Services 一 Zeppelin Notebook 一 Quick Links 一 
Zeppelin UI， 打 开 Zeppelin UI 主页 面 。 
(2) 在 Zeppelin UI 主页 面 中 ， 单 击 anonymous 一 interpreter， 进 入 翻译 器 页 面 。 
(3) 单 击 edit 编辑 jdbc 翻译 器 ,配置 default.driver.default.password, default.url, default.user 
四 个 属性 的 值 ， 这 里 的 配置 如 图 18-4 所 示 。 
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jdbc «ax Zi arena [remo 
Option 
Shared = Interpreter for note 

Connect to existing process 
Properties 
em value action 
Ep E x 
defaut diver org Pomoc Dror x 
default password vss x 
default ut jc postgres naps S380 x 
default user des x 
hive drver cag apache hive jc Hive ve * 








18-4. ACT JDBC 翻译 器 属性 
(4) 配置 好 后 单 击 Save 保存 配置 ， 然 后 单 击 restart 重启 jdbc 翻译 器 ， 至 此 配置 完成 。 
3. 在 Zeppelin 中 执行 HAWQ 查询 


单 击 Notebook 一 Create new note， 新 建 一 个 note， 在 其 中 输入 查询 语句 ， 如 “每 种 产品 
类 型 以 及 单个 产品 在 每 个 省 、 每 个 城市 的 月 销售 量 和 销售 额 是 多 少 ? ”的 查询 。 
$jdbc 
select t2.product category, t2.product name, t3.state, t3.city, 
sum(nq) sq, sum(order amount) sa 
from v sales order fact tl, product dim t2, zip code dim t3 
where tl.product sk - t2.product sk 
and tl.customer zip code sk - t3.zip code sk 
group by t2.product category, t2.product name, t3.state, t3.city 
order by t2.product category, t2.product name, t3.state, t3.city; 


JETTA AERE. HORE. OF. HERA. REER Bos on anf] 18-5~ 图 18-10 所 示 。 
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图 18-5 表格 
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图 18-10 散 点 图 
-个 note 中 可 以 独立 执行 多 个 查询 语句 。 图 形 显示 可 以 根据 不 同 的 “settings ”联机 分 析 
不 同 的 指标 。 报 表 有 default, simple, report 三 种 可 选 样式 。 例 如 ， 报 表 样 式 的 饼 图 表示 如 图 
18-11 所 示 。 





@ Zeppelin Notebook - 
Untitled Note 1 » ao 





meters; 





图 18-11 报表 样式 的 饼 图 
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可 以 单 击 如 图 18-12 红 框 中 所 示 的 链接 单独 引用 此 报表 。 


æ Zeppelin Notebook - 








图 18-12 ”链接 报表 


单独 的 页 面 能 根据 查询 或 设置 的 修改 而 实时 变化 , 比如 将 Values 由 sa 列 改 为 sq 列 , 饼 图 
表 变 为 图 18-13 的 样子 。 


P Zeppelin Notebook - 





Groups vava 





@ceveiand @mechancsburg @pttsduroh 


pe 
situs 5 


mrechanicsburg 








图 18-13 ”查询 设置 
单独 链接 的 页 面 也 随 之 自动 发 生变 化 ， 如 图 18-14 所 示 。 
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iebock/2CK3HJCHS, 





@cieelend Gmecrencsouy Ooitsbugn 


deveand 


pisou 


mecharicsturg 





图 18-14 单独 链接 的 页 面 联动 改变 
Zeppelin 支持 联机 输入 变量 值 ， 例 如 ， 要 查询 某 一 年 的 销售 情况 ， 查 询 语句 改 为 : 
$jdbc 
select t2.product category, t2.product name, t3.state, t3.city, 
sum(nq) sq, sum(order amount) sa 

from v sales order fact tl, product dim t2, zip code dim t3 
where tl.product sk - t2.product sk 

and tl.customer zip code sk - t3.zip code sk 

and tl.year month/100 = ${year} 
group by t2.product category, t2.product name, t3.state, t3.city 
order by t2.product category, t2.product name, t3.state, t3.city; 


运行 查询 时 会 在 页 面 中 出 现 一 个 输入 框 ， 填 入 适当 的 变量 值 运行 查询 ， 如 图 18-15 所 示 。 
@ Zeppelin Notebook - Search yo anonymous ~ 





o OG rate 






sumlnq) sa, suntordar amount) sa 





Eu em w a|- 
product category. product name state ey sq 2 

montor fet pane on cleveland m 7431 
montor tat panel pa mrechanicstur vul 10630 
monte tet panel pa pitsburgh vut 31605 
montor led panet pa pitsburgh "n 3,087 
peripneral on eveand 10875 
peripheral pa mrechanicsturg nuit 29629 
penpneral pa pmspurgn nui 25083 





storage on cleveland ull 8229 








图 18-15 包含 联机 变量 的 查询 
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甚至 可 以 动态 定义 查询 的 列 ， 例 如 查询 语句 改 为 : 


$jdbc 
select 
$(checkbox:fields-t2.product category, 
t2.product category|t2.product name], 
t3.state, t3.city, sum(nq) sq, sum(order amount) sa 
from v sales order fact tl, product dim t2, zip code dim t3 
where tl.product sk - t2.product sk 
and tl.customer zip code sk = t3.zip code sk 
and tl.year month/100 = ${year} 
group by 
$(checkbox:fields-t2.product category, t2.product category|t2.product name], 
t3.state, t3.city 
order by 
$(checkbox:fields-t2.product category, t2.product category|t2.product name), 
t3.state, t3.city; 


查询 运行 时 出 现 字段 复 选 枉 ， 如 图 18-16 所 示 。 





‘anonymous ~ 





@ Zeppelin Notebook - 
Untitled Note] »:w42s3 0 o m diak 





ory, .orooct category l t2.oroduct rare] 3. state, t3.city, suntna) sa, sun(order_arcunt) sa 
CER 








product name produet category state ety sq E 
fat panel monitor on cleveland nut 7431 
fat panel montor pa mechanicsturg nut 10630 


burgh nul 31,605 





fiat panel monitor be pi 








floppy drive storage on cleveland nut 8220 
foppy drive storage pe mechaniesoug nut 3407 
floppy ative storage m ugh 2 52,0 
hard disk arive storage on d nut 6646 
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18.4 ne 


联机 分 析 处 理 系 统 从 数据 仓库 中 的 集成 数据 出 发 , 构建 面向 分 析 的 多 维 数据 模型 ,再 使 用 
多 维 分 析 方法 从 多 个 不 同 的 视角 对 数据 集合 进行 分 析 比 较 ， 分 析 活动 以 数据 驱动 ， 通 常 分 为 
MOLAP、ROLAP、HOLAP 三 种 类 型 。HAWQ 由 于 性 能 优势 和 健全 的 函数 功能 ， 比 较 适 合 做 
联机 分 析 处 理 。 

Zeppelin 是 Hadoop 的 数据 可 视 化 组 件 ， 支 持 的 后 端 数据 查询 程序 较 多 ， 原 生 支持 Spark. 
Zeppelin 采用 插件 式 的 翻译 器 ， 通 过 插件 ， 可 以 添加 任何 后 端 语 言及 其 数据 处 理 程序 。 通 过 配 
置 JDBC，Zeppelin 可 以 支持 HAWQ 查询 。 
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第 三 部 分 
HAWQ 数据 挖掘 


第 19 章 
< 整合 HAWQ 与 WADIib * 


本 书 最 后 一 部 分 介绍 如 何 使 用 HAWQ 进 行 数据 挖掘 。 能 用 单纯 的 SQL 解决 数据 挖掘 问题 ， 
这 也 是 HAWQ 有 别 于 其 他 SQL-on-Hadoop 产品 的 一 大 亮点 。 我 们 从 HAWQ 与 MADlib 的 整 
合 开始 说 明 ， 然 后 以 实例 详细 介绍 使 用 HAWQ 和 MADIib 实现 典型 的 数据 挖掘 方法 。 先 让 我 
们 了 解 一 下 数据 挖掘 的 基本 概念 。 
数据 挖掘 (Data Mining) ， 是 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 的 、 随 机 的 实际 应 
用 数据 中 ,提取 隐 含 在 其 中 的 、 人 们 事先 不 知道 的 , 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 与 
传统 数据 分 析 〈 如 查询 、 报 表 、OLAP 等 ) 的 本 质 区 别 是 ， 数 据 挖掘 是 在 没有 明确 假设 的 前 提 
下 去 挖掘 信息 、 发 现 知识 。 数 据 挖 掘 使 数据 库 技术 进入 到 一 个 更 高 的 阶段 。 概 括 来 说 ， 数 据 挖 
掘 技术 具有 以 下 几 个 特点 : 
e ”处 理 的 数据 规模 庞大 ， 达 到 GB、TB， 甚 至 更 大 数量 级 。 
e 查询 一 般 是 决策 制定 者 ( 用户 ) 提 出 的 即时 随机 查询 , 往往 不 能 形成 精确 的 查询 要 求 ， 
需要 靠 系统 本 身 寻 找 其 可 能 感 兴趣 的 东西 。 
@ ”在 一 些 应 用 (如 商业 投资 等 ) 中 ， 由 于 数据 变化 迅速 ， 因 此 要 求 数据 挖 握 能 快速 做 出 
反应 以 随时 提供 决策 支持 。 
e ”数据 挖 据 中 ,规则 的 发 现 基于 统计 规律 。 所 发 现 的 规则 不 必 适 用 于 所 有 数据 ， 而 是 当 
达到 某 一 临界 值 时 即 认为 有 效 。 因 此 ， 利 用 数据 挖 气 技 术 可 能 会 发 现 大 量 的 规则 。 
© ”数据 挖 握 所 发 现 的 规则 是 动态 的 , 它 只 反映 了 当前 状态 的 数据 库 具 有 的 规则 , 随 着 不 
断 向 数据 库 中 加 入 新 数据 ， 需 要 随时 对 其 进行 更 新 。 
数据 挖掘 过 程 的 核心 是 利用 算法 对 处 理 好 的 输入 输出 数据 进行 训练 , 并 得 到 模型 , 然后 再 
对 模型 进行 验证 , 使 得 模型 能 够 在 一 定 程度 上 刻画 出 数据 由 输入 到 输出 的 关系 , 然后 再 利用 该 
模型 ， 对 新 输入 的 数据 进行 计算 ， 从 而 得 到 新 的 输出 ， 对 这 个 输出 就 可 以 进行 解释 和 应 用 了 。 
虽然 模型 可 能 不 易 理解 或 很 难 直观 看 到 , 但 它 是 基于 大 量 数据 训练 并 经 过 验证 的 , 因此 能 够 反 
映 输 入 和 输出 数据 之 间 的 大 致 关系 ,这 种 关系 (模型 ) 就 是 我 们 需要 的 知识 。 从 以 上 原理 可 以 
看 出 ， 数 据 挖掘 有 科学 依据 ， 挖 掘 的 结果 也 是 值得 信任 的 。 数 据 挖掘 的 内 容 总 是 集中 在 关联 、 
回归 、 分 类 、 聚 类 、 预 测 、 诊 断 六 个 方面 ， 后 面 几 章 的 示例 也 基本 围绕 这 些 方面 进行 讨论 。 





























19.71 MADlib 简介 


HAWQ 的 数据 挖掘 是 通过 MADlib 实现 的 。MADlib 是 Pivotal 公司 与 伯克利 大 学 合作 
发 的 一 个 开源 机 器 学 习 库 , 提供 了 精确 的 数据 并 行 实现 、 统 计 和 机 器 学 习 方法 , 对 结构 化 和 非 
结构 化 数据 进行 分 析 。 可 以 非常 方便 地 将 MADIib 加 载 到 数据 库 中 ， 扩 展 数据 库 的 分 析 功 能 。 
2015 年 7 月 MADlib 成 为 Apache 软件 基金 会 的 孵化 项 目 ， 其 最 新 版 本 为 MADIib 1.11， 可 以 
用 在 PostgreSQL. Greenplum 和 HAWQ 等 数据 库 系 统 中 。 


1. 设计 思想 
驱动 MADIib 架构 的 主要 思想 与 Hadoop 是 一 致 的 ， 主 要 体现 在 以 下 方面 : 


@ ”操作 数据 库 内 的 本 地 数据 ， 不 在 多 个 运行 时 环境 中 进行 不 必要 的 数据 移动 。 

@ ”充分 利用 数据 库 引 擎 功能 ， 但 将 机 器 学 习 逻 辑 从 特定 数据 库 的 实现 细节 中 分 离 出 来 。 

€ 利用 MPP 无 共享 技术 提供 的 并 行 性 和 可 扩展 性 ， 如 Greenplum 数据 库 和 HAWQ。 

© ”执行 的 维护 活动 对 Apache 社区 和 正在 进行 的 学 术 研究 开放 。 

2. 支持 的 模型 

(1) 分 类 

如 果 所 需 的 输出 实质 上 是 分 类 的 , 可 以 使 用 分 类 方法 建立 模型 ,预测 新 数据 会 属于 哪 一 类 。 
分 类 的 目标 是 能 够 将 输入 记录 标记 为 正确 的 类 别 。 例如, 假设 有 描述 人 口 统计 的 数据 ， 以 及 个 
人 申请 贷款 和 贷款 违约 历史 数据 , 那么 我 们 就 能 建立 一 个 模型 , 描述 新 的 人 口 统计 数据 集合 贷 
款 违约 的 可 能 性 。 此 场景 下 输出 的 分 类 为 “违约 ”和 “正常 ”两 类 。 

(2) 回归 

如 果 所 需 的 输出 具有 连续 性 ， 我 们 使 用 回归 方法 建立 模型 ， 预 测 输出 值 。 例 如 ， 如 果 有 真 
实 的 描述 房地产 属性 的 数据 , 我 们 就 可 以 建立 一 个 模型 ， 预 测 基于 房屋 已 知 特征 的 售 价 。 因 为 
输出 反映 了 连续 的 数值 而 不 是 分 类 ， 所 以 该 场景 是 一 个 回归 问题 。 


(3) 聚 类 

识别 数据 分 组 ,一 组 中 的 数据 项 比 其 他 组 的 数据 项 更 相似 。 例如， 在 客户 细 分 分 析 中 ， 目 
标 是 识别 客户 行为 相似 特征 组 ,以便 针对 不 同 特征 的 客户 设计 各 种 营销 活动 , 以 达到 市 场 目的 。 
如 果 提 前 了 解 客户 细 分 情况 , 这 将 是 一 个 受 控 的 分 类 任务 。 当 我 们 让 数据 识别 自身 分 组 时 , 这 
就 是 一 个 聚 类 任务 。 

(4) 主题 建 模 

主题 建 模 与 聚 类 相似 ,也 是 确定 彼此 相似 的 数据 组 .但 这 里 的 相似 通常 特 指 在 文本 领域 中 ， 
具有 相同 主题 的 文档 。 


(5) 关联 规则 挖掘 
关联 规则 挖掘 又 叫做 购物 篮 分 析 或 频繁 项 集 挖 掘 。 相 对 于 随机 发 生 , 确定 哪些 事项 更 经 常 




















452 


一 起 发 生 ， 指 出 事项 之 间 的 潜在 关系 。 例 如 ,在 一 个 网 店 应 用 中 ,关联 规则 挖掘 可 用 于 确定 哪 
些 商 品 倾向 于 被 一 起 售 出 ， 然 后 将 这 些 商 品 输入 到 客户 推荐 引擎 中 ,提供 促销 机 会 ， 就 像 著 名 
的 啤酒 与 尿布 的 故事 。 


(6) 描述 性 统计 

描述 性 统计 不 提供 模型 , 因此 不 被 认为 是 一 种 机 器 学 习 方 法 。 但 描述 性 统计 有 助 于 向 分 析 
人 员 提 供 信息 以 了 解 基础 数据 ， 为 数据 提供 有 价值 的 解释 ， 可 能 影响 数据 模型 的 选择 。 例 如 ， 
计算 数据 集中 每 个 变量 内 的 数据 分 布 , 可 以 帮助 分 析 理 解 哪些 变量 应 被 视 为 分 类 变量 , 哪些 变 
量 是 连续 性 变量 ， 以 及 值 的 分 布 情况 。 

CD 模型 验证 

如 果 不 了 解 一 个 模型 的 准确 性 就 开始 使 用 它 ， 很 容易 导致 糟糕 的 结果 。 正 因 如 此 ,理解 模 
型 存在 的 问题 ,并 用 测试 数据 评估 模型 的 精度 尤为 重要 。 需 要 将 训练 数据 和 测试 数据 分 离 , 频 
繁 进行 数据 分 析 ， 验证 统计 模型 的 有 效 性 ， 评 估 模 型 不 过 分 拟 合 训练 数据 。N-fold 交叉 验证 方 
法 经 常 被 使 用 。 





3. 功能 
MADIib 的 功能 特色 如 图 19-1 所 示 。 













Support modules 
* An ns 





Supervised Learning Text analytics 
+ Ger lols * CRF 
* LDA 
Summary function : 
Scorin 
Sketch estimators | | Linear nn 
ores! 过 Pen 5 
Percentiles methode Logistic Regression 


* Naive Bayes 


Correlation matrix * Cross Validation 





* Cox-Prop Hazards 
and more 





Aggregation Unsupervised Learning Statistical metrics 
Normalizing * Association Rules + Descriptive statistics 
Pivoting + k-Means Clustering + Goodness of fit 

* Low-rank Matrix Factorization * Inferential statistics 
Filtering “PCA ROG 


* SVD Matrix Factorization 








图 19-1 MADIib 功能 


(1) Data Types and Transformations 〈 数 据 类 型 转换 ) 


Rrrays and Matrices (数组 与 矩阵 ) 
o Array Operations (数组 运算 ) 
o Matrix Operations (矩阵 运算 ) 
o Matrix Factorization (KERA) 
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o 
o 


o 
o 


o 
o 


Low-rank Matrix Factorization (EBMER S) 


Singular Value Decomposition (SVD， 奇 异 值 分 解 ) 


Norms and Distance functions (规范 和 距离 函数 ) 
Sparse Vectors (稀疏 向 量 ) 

Dimensionality Reduction (Kt) 

Principal Component Analysis (PCA 主 成 分 分 析 ) 
Principal Component Projection (PCP 主 成 分 投影 ) 
Encoding Categorical Variables (编码 分 类 变量 ) 

Stemming ( 切 词 ) 


(2) Model Evaluation (模型 评估 ) 
Cross Validation (交叉 验证 ) 


(3) Statistics (统计 ) 


Descriptive Statistics (描述 性 统计 ) 
Pearson’ s Correlation (皮尔 斯 相关 性 7 
Summary (摘要 汇总 ) 

Inferential Statistics (推断 性 统计 ) 
Hypothesis Tests (假设 检验 ) 
Probability Functions (概率 函数 ) 


o 
o 


o 


(4) Supervised Learning (监督 学 习 算法 ) 


Conditional Random Field (条 件 随机 场 ) 
Regression Models (回归 模型 
Clustered Variance (〈 聚 类 方差 ) 


o 


o 000000 0 


o 


o 
o 


Cox-Proportional Hazards Regression (Cox 比率 风险 回归 模型 


Elastic Net Regularization (Elastic Net 回归 ) 
Generalized Linear Models 

Linear Regression (线性 回归 ) 
Logistic Regression (逻辑 回归 ) 
Marginal Effects (边际 效应 ) 
Multinomial Regression (多 项 式 回 归 ) 
Ordinal Regression (有 序 回归 ) 
Robust Variance (和 鲁 棒 方 差 ) 

Support Vector Machines (SVM, 支持 向 量 机 ) 
Tree Methods〔 树 模型 ) 

Decision Tree (决策 树 ) 

Random Forest〔 随 机 森林 ) 


(5) Time Series Analysis (时 间 序 列 分 析 》 
ARIMA ( 自 回 归 积 分 滑动 平均 模型 ) 


(6) Unsupervised Learning (无 监督 学 习 ) 


Association Rules (关联 规则 ) 

Apriori Algorithm (Apriori 算法 ) 
Clustering (RÆ) 

k-Means Clustering (k-Means) 
Topic Modelling (主题 模型 

Latent Dirichlet Allocation (LDA) 


o 


o 


o 


(7) Utility Functions 〈 效 用 函数 ) 


Developer Database Functions (开发 者 数据 库 函 数 ) 
Linear Solvers (线性 求解 器 ) 

o Dense Linear Systems (稠密 线性 系统 ) 

o Sparse Linear Systems (MARERA) 
Path Functions (路 径 函 数 ) 
PMML Export (PMML 输出 ) 
Text Analysis (文本 分 析 ) 

° Term Frequency (ia#i, TF) 


安装 与 卸载 MADIib 


1. 确定 安装 平台 


MADIib 最 新 发 布 版 本 是 1.11， 可 以 安装 在 PostgreSQL、Greenplum 和 HAWQ 中 ， 在 不 
同 的 数据 库 中 安装 过 程 也 不 尽 相 同 。 我 们 的 实验 环境 是 安装 在 HAWQ2.1.1.0 中 。 

2. 下 载 MADIib 二 进 制 压缩 包 

下 载 地 址 为 : https://network.pivotal.io/products/pivotal-hdb。2.1.1.0 版 本 的 HAWQ 提供 了 
四 个 安装 文件 ， 如 图 19-2 所 示 。 经 过 测试 ， 只 有 MADIib 1.10.0 版 本 的 文件 可 以 正常 安装 。 


Releases: 2.1.1.0 Y 


Release Download Files HDB 2.1.x MADIib - Machine Learning 


MADIib 1.11 Package for HDB 2.1 (RHEL, CentOS) 
351MB 1.11 


Ga MADIib 1.10 Package for HDB 2.1.x (RHEL, CentOS; 
3.49MB 110 


MADIib 1.9.1 Package for HDB 2.1.x (RHEL, CentOS) 
3.39MB 191 


MADIib 1.9 Package for HDB 2.1.x (RHEL, CentOS) 
25MB 19 











图 19-2 ”下载 MADlib 安装 文件 
3. 安装 MADIib 
以 下 命令 需要 使 用 gpadmin 用 户 ， 在 HAWQ 的 Master 主机 上 执行 。 
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COD 解压 缩 


tar -zxvf madlib-ossv1.10.0 pv1.9.7 hawq2.1-rhel5-x86 64.tar.gz 


(2) 安装 MADIib 的 gppkg 文件 


gppkg -i madlib-ossv1.10.0 pv1.9.7 hawq2.1-rhel5-x86 64.gppkg 


该 命令 在 HAWQ 集群 的 所 有 节点 (Master 和 Segment). 上 创建 MADIib 的 安装 目录 和 文 
件 ， 默 认 目录 为 /usrlocalhawq 2 1 1 0/madlib. 


(3) 在 指定 数据 库 中 部 署 MADlib 


$GPHOME/madlib/bin/madpack install -c /dm -s madlib -p hawq 


该 命令 在 HAWQ 的 dm 数据 库 中 建立 madlib schema, -p 参数 指定 平台 为 HAWQ。 命 令 
执行 后 可 以 查看 在 madlib schema 中 创建 的 数据 库 对 象 。 


dm=# set search path-madlib; 


SET 
dm=# \dt 


madlib 
(1 row) 


List of relations 
Name | Type | Owner | Storage 


migrationhistory | table | gpadmin | append only 


List of relations 
Name | Type | Owner | Storage 


migrationhistory id seq | sequence | gpadmin | heap 


dm=# select type,count(*) 
dm-# from (select p.proname as name, 


dm (4 
dm (4 
dm (4 
dm (4 
dm (4 
dm (4 
dm (4 
dm (4 


case when p.proisagg then 'agg' 
when p.prorettype 
= 'pg catalog.trigger'::pg catalog.regtype 
then 'trigger' 
else 'normal' 
end as type 
from pg catalog.pg proc p, pg catalog.pg namespace n 
where n.oid - p.pronamespace and n.nspname-'madlib') t 


dm-# group by rollup (type); 


type 


agg l 

normal | 
1 

(3 rows) 
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count 


139 
1324 
1459 


可 以 看 到 , MADIib 部 署 应 用 程序 madpack 首先 创建 数据 库 模 式 madlib， 然 后 在 该 模式 中 
创建 数据 库 对 象 ， 包括 一 个 表 ， 一 个 序列 ，1324 个 普通 函数 ，135 个 聚合 函数 。 所 有 的 机 器 学 
习 和 数据 挖掘 模型 、 算 法 、 操 作 和 功能 都 是 通过 调用 这 些 函数 实际 执行 的 。 

(D 验证 安装 

$GPHOME/madlib/bin/madpack install-check -c /dm -s madlib -p hawq 

该 命令 通过 执行 29 个 模块 的 77 个 案例 , 验证 所 有 模块 都 能 正常 工作 。 命令 输出 如 下 ， 如 
果 看 到 所 有 案例 都 已 经 正常 执行 ， 说 明 MADIib 安装 成 功 。 


[gpadmin@hdp3 Madlib]$ $GPHOME/madlib/bin/madpack install-check -c /dm -s 
madlib -p hawq 

madpack.py : INFO : Detected HAWQ version 2.1. 

TEST CASE RESULT|Module: array ops|array ops.sql in|PASS|Time: 1851 
milliseconds 

TEST CASE RESULT|Module: bayes|gaussian naive bayes.sql in|PASS|Time: 24222 
milliseconds 

TEST CASE RESULT|Module: bayes|bayes.sql in|PASS|Time: 70634 milliseconds 


TEST CASE RESULT|Module: pca|pca.sql in|PASS|Time: 523230 milliseconds 

TEST CASE RESULT|Module: validation|cross validation.sql in|PASS|Time: 33685 
milliseconds 

[gpadmin@hdp3 Madlib]$ 


4. 卸载 
卸载 过 程 基本 上 是 安装 的 逆 过 程 。 


C1) 删除 madlib 模式 
方法 1， 使 用 madpack 部 署 应 用 程序 删除 模式 。 


$GPHOME/madlib/bin/madpack uninstall -c /dm -s madlib -p hawq 


方法 2， 使 用 SQL 命令 手工 删除 模式 。 


drop schema madlib cascade; 
(2) 删除 其 他 遗留 数据 库 对 象 
e 删除 模式 


如 果 测 试 中 途 出 错 ， 数 据 库 中 可 能 包含 测试 的 模式 ， 这 些 模式 名 称 的 前 级 都 是 
madlib_installcheck_， 只 能 手工 执行 SQL 命令 删除 这 些 模 式 ， 如 : 


drop schema madlib installcheck kmeans cascade; 
e MRAP 
如 果 存 在 遗留 的 测试 用 户 ， 则 删除 它 ， 如 : 
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drop user if exists madlib 1100 installcheck; 


(3) 删除 MADIib rpm 包 
查询 包 名 : 


gppkg -q --all 
输出 如 下 : 


[gpadmin@hdp3 Madlib]$ gppkg -q --all 

20170630:16:19:53:076493 gppkg:hdp3:gpadmin-[INFO]:-Starting gppkg with args: 
=q ==all 

madlib-ossv1.10.0 pv1.9.7 hawq2.1 


gppkg -r madlib-ossv1.10.0 pv1.9.7 hawq2.1 


19,3 MaADIib 基础 


和 其 他 数据 挖掘 语言 或 工具 一 样 ，MADlib PRE IESE AO St A n] fi 5S BE. Og IR] AI 
阵 的 操作 是 通过 一 系列 函数 完成 的 。 本 节 将 介绍 MADlib 中 向 量 与 矩阵 的 概念 , 并 举 出 一 些 很 
简单 的 函数 调用 示例 。 虽 然 很 重要 , 但 限于 篇 幅 ， 这 里 不 详细 解释 每 个 函数 相关 参数 的 具体 意 
义 及 其 函数 的 数学 含义 ， 读 者 可 查询 参考 文献 中 列 出 的 MADIib 官方 文档 地 址 获得 详细 信息 。 
还 可 以 使 用 psql 的 联机 帮助 ， 查 看 函数 的 参数 、 返 回 值 和 函数 体 等 信息 ， 例 如 : \df 
matrix sparsify 或 df+ matrix_sparsify。 我 们 将 侧重 于 应 用 ， 因 为 学 会 这 些 函 数 的 基本 用 法 是 后 
面 进 行 数据 挖掘 的 基础 。 





19.3.1 向 量 


1. 定义 

这 里 不 讨论 向 量 严格 的 数学 定义 。 在 MADIib 中 , 可 以 把 向 量 简单 理解 为 矩阵 的 一 种 特殊 
形式 。 和 矩阵 是 MADIlib 中 数据 的 基本 格式 ， 当 矩阵 只 有 一 维 时 ， 就 是 向 量 ，1 行 n 列 的 矩阵 称 
为 行 向 量 ，m 行 1 列 的 矩阵 称 为 列 向 量 ，1 行 1 列 的 矩阵 称 为 标量 。 

2. 函数 

MADIib 的 线性 代数 模块 〈linalg module) 包括 基本 的 线性 代数 操作 的 实用 函数 。 利 用 线 
性 代数 函数 可 以 很 方便 地 实现 新 算法 。 这 些 函数 操作 向 量 (1 维 FLOATS 数组 ) 和 和 矩阵 〈2 HE 
FLOATS 数组 ) 。 注 意 ， 这 类 函数 只 接受 FLOATS 数组 参数 ， 因 此 在 调用 函数 时 ， 需 要 将 其 
他 类 型 的 数组 转换 为 FLOAT8[]。 
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(1) 函数 概览 


MADIib 中 的 线性 代数 函数 主要 包括 范 数 、 距 离 、 和 矩阵 、 聚 合 几 类 。 表 19-1 列 出 了 相关 函 





















































数 的 简要 说 明 。 
表 19-1 MADIib 线性 代数 函数 
函数 名 称 描述 参数 返回 值 
norml() 向 量 的 1 范 数 ，llall，| x vector 上 X. Ixi| 
X =(x1,. Xn) 
norm2() 向 量 的 2 EAL, Mäll | x vector 
X =(X1,.. Xn) l= (East 
dist_norm1() 两 个 向 量 之 差 的 1 范 | x vector x — yIh= Ef lxi — yi | 
X. lä- Blh ¥=(x,., Xn) 
y vector 
y 70n.. y») 
dist norm2() 两 个 向 量 之 差 的 2 范 | x vector x — yl= JOE Ci — y)? 
数 ，lla 一 Bll Ë SCi, Xa) 
y vector 
y =. Yn) 
dist pnorm() 两 个 向 量 之 差 的 p 范 | x vector 1 
数 ， È =(x,_ x) lx —yllp= Œi llxi — vill? )» 
llä — Bl. p»0 y vector 
y =. Yn) 
p Scalar p>0 
dist inf norm() 两 个 向 量 之 差 的 无 X Vector Ilx — ylls= max- lx; — yill 
穷 范 数 ， X =(X1,... Xn) 
llä — bl. y vector 
y =O. Yn) 
squared_dist_norm2() 两 个 向 量 之 差 的 2 范 | x vector z — : 
KAI, Wa BIB | z =Cr,., x0) lezis =Z æy 
y vector 
y -0n.. Yn) 
cosine similarity() 两 个 向 量 的 余弦 相 x vector (Gy) 
似 度 〈 角 距离 ， X =(x1,.. Xn) Iæ- MM 
ab y vector 
Ilallzllpllz y =i... Ya) 
dist angle() 欧 氏 空间 中 两 个 向 x vector G» 
量 之 间 的 夹 角 ， B=...) arcos) 
"T vector 
ML NS 
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CBR) 















































函数 名 称 描述 参数 返回 值 
dist_tanimoto() 两 个 向 量 间 的 谷 本 X Vector E an 
距离 = x9) BREI- G5 
y vector 
y =... Yo) 
dist_jaccard() 两 个 字符 向 量 集 之 X Vector — kool 
间 的 杰 卡 德 距离 LEN id 
y vector 
Y=... Yn) 
get_row() 返回 矩阵 的 行 下 标 Input 2-D array - 维 数组 的 一 行 
(2 维 数组 ) Index 
get_col() 返回 矩阵 的 列 下 表 Input 2-D array - 维 数组 的 一 列 
(2 维 数组 ) Index 
avg() 计算 向 量 的 平均 值 x Point x; iy " 
nliz | 
normalized_avg() 计算 向 量 的 归 一 化 x Point x; x 
平均 值 欧 氏 空间 中 [T] 
的 单位 向 量 》 
matrix_agg() 将 向 量 合并 进 一 个 x Point x; Matrix with columns xi X, 
HERE 





(2) 函数 示例 
o 范 数 与 距离 函数 
创建 包含 两 个 向 量 列 的 数据 库 表 ， 并 添加 数据 。 


drop table i 
create table 
insert into 
(Gl Sm 
(2, '(1,1,0, 


范 数 函 数 : 


dm=# select 


id | norml 


2 i. 138 
(2 rows) 
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f exists two_vectors; 

two_vectors (id integer, a float8[], b float8[]); 
two_vectors values 

"{4,5}"), 

=4,5,3,4, 106,14)", '{1,1,0,6,-3,1,2,92,2}"); 


id, madlib.norml(a), madlib.norm2(a) from two vectors; 
| norm2 

RR 

1 5 

| 107.238052947636 


距离 函数 : 


dm=# \x 


Expanded display is on. 
dm=# select id, 


dm-# madlib.dist norml(a, b), 

dm-# madlib.dist_norm2(a, b), 

dm-# madlib.dist pnorm(a, b, 5) as norm5, 
dm-# madlib.dist inf norm(a, b), 
dm-# madlib.squared_dist_norm2(a, b) as sq_dist_norm2, 
dm-# madlib.cosine similarity(a, b), 
dm-# madlib.dist_angle(a, b), 

dm-# madlib.dist tanimoto(a, b), 
dm-# madlib.dist_jaccard(a::text[], b::text[]) 
dm-# from two_vectors; 

=[ RECORD 1 ]----- Bop sit orntet alata teal ote 

id (a 

dist norml 152 

dist norm2 | 1.4142135623731 

norm5 | 1.14869835499704 

dist inf norm fj à 

Sq dist norm2 | 2 

cosine similarity | 0.999512076087079 
dist angle | 0.0312398334302684 
dist tanimoto | 0.0588235294117647 
dist jaccard | 0.666666666666667 

-[ RECORD 2 ]----- Pes EE 

id it 2 

dist norml | 48 

dist norm2 | 22.6274169979695 

norm5 | 15.585086360695 

dist inf norm | 14 

Sq dist norm2 10512 

cosine similarity | 0.985403348449008 
dist angle | 0.171068996592859 
dist tanimoto | 0.0498733684005455 
dist jaccard | 0.833333333333333 

e JAR 

创建 包含 矩阵 列 的 数据 库 表 。 

drop table if exists matrix; 


create table matrix(id integer, m float8[]); 
insert into matrix values (1, '{{4,5},{3,5},{9,O}}")¢ 
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rm 


Va HAE EE beg 


dm=# select madlib.get row(m, 1) as row 1, 


dm-# madlib.get_row(m, 2) as row_2, 
dm-# madlib.get_row(m, 3) as row_3, 
dm-# madlib.get_col(m, 1) as col 1, 
dm-# madlib.get_col(m, 2) as col_2 
dm-# from matrix; 

rowed) | row 2 row3 sll coli | cols 
------- 4-------4-------4---------4--------- 
{4,5} | {3,5} | {9,0} | {4,3,9} | {5,5,0} 
(1 row) 

e 聚合 函数 

创建 包含 向 量 列 的 数据 库 表 。 


drop table if exists vector; 
create table vector(id integer, v float8[]); 
insert into vector values (1, '(4,3)'), (2, '(8,6)"), (3, '(12,9) '); 


调用 聚合 函数 : 


dm=# select madlib.avg(v), madlib.normalized_avg(v), madlib.matrix_agg(v) 
dm-# from vector; 


avg | normalized avg | matrix agg 
cock Pec Se oS ee a ee 
{8,6} | {0.8,0.6} | {{4,3}, {8,6}, {12,9}} 
(1 row) 
3. Belo] 


(1) MADIib PEE lr] t 


MADIib 实现 了 一 种 稀疏 向 量 数 据 类 型 ， 名 为 “svec”， 能 够 为 包含 大 量 重 复元 素 的 向 量 
+ 压缩 存储 。 浮 点 数组 进行 各 种 计算 ， 有 时 会 有 很 多 的 零 或 其 他 默认 值 , 在 科学 计算 、 零 售 
优化 、 文 本 处 理 等 应 用 中 ， 这 是 很 常见 的 。 每 个 浮 点 数 在 内 存 或 磁盘 中 使 用 8 字 节 存储 ， 例 如 


有 如 下 float8[] 数 据 类 型 的 数组 : 


OS 40,000! zeros. mr 12, 22 }isirfloatel] 


这 个 数组 会 占用 320KB 的 内 存 或 磁盘 , 而 其 中 绝 大 部 分 存储 的 是 0 值 。 即 使 我 们 利用 null 
位 图 ， 将 0 作为 null 存储 ， 还 是 会 得 到 一 个 5KB 的 null 位 图 ， 内 存 使 用 效率 还 是 不 够 高 。 何 





mA 


E 执 行 数组 操作 时 , 40000 个 零 列 上 的 计算 结果 并 不 重要 。 为 了 解决 这 个 向 量 存储 问题 , svec 
类 型 使 用 行程 长 度 编码 (Run Length Encoding, RLE) ， 即 用 一 个 数 - 值 对 数组 表示 稀 玖 向 量 。 


例如 ， 上 面 的 数组 被 存储 为 : 


"{1,1,40000,1,1}:{0,33,0,12,22}'::madlib.svec 
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就 是 说 1 个 0、1 4+ 33. 40000 个 0 等 等 ， 只 使 用 5 个 整 型 和 5 个 浮 点 数 类 型 构成 数组 存 
储 。 除 了 节省 空间 ， 这 种 RLE 表示 也 很 容易 实现 向 量 操作 ， 并 使 向 量 计算 更 快 。SVEC 模块 
提供 了 相关 的 函数 库 。Madlib 1.10 版 本 仅 支持 floats Fiir] 5 270 s 


(2) EEREN p] E 


GMO) 直接 使 用 常量 表达 式 构建 一 个 SVEC，n1、n2、...、nk 指定 值 v1、v2、...、vk 的 个 
数 。 


select '{nl,n2,...,nk}:{vl,v2,...vk}'::madlib.svec; 
CXX02 将 一 个 float 数组 转换 成 SVEC。 

select ('(v1,v2,...vk) '::float[])::madlib.svec; 
E 使 用 聚合 函数 创建 一 个 SVEC。 

select madlib.svec_agg(v1) from generate series(1,10) v1; 
€o 利用 madlib.svec cast positions floatSarr():à4t 6] 3f SVEC。 


select madlib.svec cast positions float8arr( 
array[1,3,5], array[2,4,6], 10, 0.0); 


生成 的 SVEC 为 : 


svec cast positions float8arr 


{Dll pl pO es 


G) iii e] Er 0 
F ifti BeAr 15186 — 1 iati] T f] frs DL 
对 SVEC 类 型 可 以 应 用 <、>、*、**、/、=、+、SUM 等 操作 和 运算 ， 并 且 具 有 典型 的 向 
量 操作 的 相关 含义 。 例 如 ， 加 法 (+) 操作 是 对 两 个 向 量 中 相同 下 标 对 应 的 元 素 进行 相 加 。 为 
了 使 用 SVEC 的 操作 符 ， 需 要 将 madlib 模式 添加 到 search. path 中 。 
dm=# -- 将 madlib 模式 添加 到 搜索 路 径 中 
dm=# set search_path="$user",public,madlib; 
SET 
dm=# -- 稀疏 向 量 相 加 
dm=# select ('{0,1,5}'::float8[]::madlib.svec 
dm (4 + '{4,3,2}'::float8[]::madlib.svec) ::float8[]; 
floats 


{4,4,7} 
(1 row) 


如 果 最 后 不 转换 成 float8[]， 结 果 是 一 个 SVEC 类 型 : 
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dm=# select ('{0,1,5}'::float8[]::madlib.svec 
dm (4 + '(4,3,2]'::float8[]::madlib.svec); 


(2,1) :(4, 7) 
(1 row) 


两 个 向 量 的 点 积 (%*%) 结果 是 float8 类 型 ， 如 (0*4 + 1*3 + 5*2) = 13: 


dm=# select '{0,1,5}'::float8[]::madlib.svec 
dm-# $*$ '{4,3,2}'::float8[]::madlib.svec; 
?column? 


(1 row) 


有 些 聚合 函数 对 SVEC 也 是 可 用 的 ， 如 SVEC_COUNT_NONZERO. 


drop table if exists list; 

create table list (a madlib.svec); 

insert into list values 

('{0,1,5}'::float8[]::madlib.svec), ('{10,0,3}'::float8[]::madlib.svec), 

('{0,0,3}'::float8[]::madlib.svec), ('{0,1,0}'::float8[]::madlib.svec) ; 
SVEC COUNT NONZERO 函数 统计 SVEC 中 每 一 列 非 0 元 素 的 个 数 ， 返 回 计 数 的 SVEC。 

dm=# select madlib.svec_count_nonzero(a)::float8[] from list; 


Svec count nonzero 


SVEC 数据 类 型 中 不 应 该 使 用 NULL, 因为 NULL 会 显 式 表示 为 NVP (No Value Present) o 


dm=# select '{1,2,3}:{4,null,5}'::madlib.svec; 
svec 


{1,2,3}:{4,NVP, 5} 
(1 row) 


含有 NULL 的 SVEC 相 加 ， 结 果 中 显示 NVP。 


dm=# select '{1,2,3}:{4,null1,5}'::madlib.svec 
dm-# + "{2,2,2}:{8,9,10}'::madlib,. svec; 
?column? 
{1,2,1,2}:{12,NVP,14,15} 
(1 row) 


可 以 使 用 SVEC_PROJO 函 数 访问 SVEC 元 素 ， 该 函数 的 参数 为 一 个 SVEC 和 一 个 元 素 下 


标 。 
dm=# select madlib.svec_proj('{1,2,3}:{4,5,6}'::madlib.svec, 1) 
dm-# + madlib.svec_proj('{4,5,6}:{1,2,3}'::madlib.svec, 15); 
?column? 
F 
(1 row) 


通过 SVEC_SUBVEC0O 函 数 可 以 访问 一 个 SVEC 的 子 向 量 ， 该 函数 的 参数 为 一 个 SVEC， 
及 其 起 止 下 标 。 
dm=# select madlib.svec_subvec('{2,4,6}:{1,3,5}'::madlib.svec, 2, 11); 


svec_subvec 


{1,4,5}:{1,3,5} 
(1 row) 


SVEC 的 元 素 / 子 向 量 可 以 通过 SVEC_CHANGE() 函 数 进行 改变 。 该 函数 有 三 个 参数 : 
A m HERY svec sv1, 起 始 下 标 j; 一 个 n HERY svec sv2, HEP j +n- 1<= mi; 返回 类 似 svl 的 svec, 
但 子 向 量 svl[j:jtn-1] 被 sv2 所 替换 。 

dm=# select madlib.svec_change('{1,2,3}:{4,5,6}' 


dm (4 ::madlib.svec,3,'(2):(3] '::madlib.svec); 
svec change 





{1,1,2,2}:{4,5,3,6} 
(1 row) 


还 有 处 理 SVEC 的 高 阶 函 数 。 如 SVEC_LAPPLY 对 应 RR 语言 中 的 LAPPLYO 函 数 。 


dm=# select madlib.svec lapply('sqrt', '{1,2,3}:{4,5,6}'::madlib.svec) ; 
svec_lapply 

{1,2,3}:{2,2.23606797749979,2.44948974278318} 

(1 row) 


(4) 扩展 示例 
下 面 的 示例 是 对 文档 向 量化 为 稀 朴 窍 阵 的 说 明 ， 假 设 有 一 个 由 若干 单词 组 成 的 文本 数组 : 
drop table if exists features; 
create table features (a text[]); 
insert into features values 


(' {am, before, being, bothered, corpus, document, i,in,is,me, 
never, now, one, really, second, the, third, this, until}'); 
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同时 有 一 个 文档 集合 ， 每 个 文档 表示 为 一 个 单词 数组 : 


drop table if exists documents; 
create table documents(a int,b text[]); 
insert into documents values 
(1, '{this,is,one,document, in, the,corpus}'), 
(2,'{i,am, the, second, document, in, the, corpus}'), 
(3, '{being, third, never, really, bothered,me, until,now}'), 


(4, '{the, document, before,me,is, the, third, document}'); 


现在 有 了 字典 和 文档 , 我 们 要 对 每 个 文档 中 的 出 现 单词 的 数量 和 比例 应 用 向 量 运 算 , 将 文 
档 进 行 分 类 。 在 开始 处 理 前 ， 需 要 找到 每 个 文档 中 出 现 的 字典 中 的 单词 。 我 们 为 每 个 文档 创建 
-个 稀 玻 特征 向 量 (Sparse Feature Vector, SFV) 。SFV 是 一 个 N 维 向 量 ，N 是 字典 单词 的 数 
量 ，SFV 中 的 每 个 元 素 是 文档 中 对 每 个 字典 单词 的 计数 。SVEC 有 一 个 函数 可 以 从 文档 创建 
SFV: 


dm=# select madlib.svec_sfv((select a from features limit 1),b)::float8[] 
dm-# from documents; 
svec_sfv 
{0,0,0,0,1,1,0,1,1,0,0,0,1,0,0,1,0,1,0} 
{1,0,0,0,1,1,1,1,0,0,0,0,0,0,1,2,0,0,0} 
{0,0,1,1,0,0,0,0,0,1,1,1,0,1,0,0,1,0,1} 
{0,1,0,0,0,2,0,0,1,1,0,0,0,0,0,2,1,0,0} 
(4 rows) 


注意 ，madlib.svec_sfv0) 函 数 的 输出 是 每 个 文档 一 个 向 量 ， 元 素 值 是 相应 字典 顺序 位 置 上 
单词 在 文档 中 出 现 的 次 数 。 通 过 对 比特 征 向 量 和 文档 ， 更 容易 地 理解 这 一 点 : 


dm=# \x 

Expanded display is on. 

dm=# select madlib.svec_sfv((select a from features),b)::float8[], b 
dm-# from documents; 

= [ RECORD: I TP na 

svec_sfv | {0,0,0,0,1,1,0,1,1,0,0,0,1,0,0,1,0,1,0} 

{this, is, one, document, in, the, corpus} 


RECORD 2 ]---------------------------------------------- 
svec_sfv | {1,0,0,0,1,1,1,1,0,0,0,0,0,0,1,2,0,0,0} 
b {i,am, the, second, document, in, the, corpus} 
-[ RECORD 3 ]---------------------------------------------- 


svec_sfv | {0,0,1,1,0,0,0,0,0,1,1,1,0,1,0,0,1,0,1} 
{being, third, never, really, bothered,me, until, now} 








[RECORDER ee aaa 
svec_sfv | {0,1,0,0,0,2,0,0,1,1,0,0,0,0,0,2,1,0,0} 
b {the, document, before,me,is, the, third, document} 


466 


可 以 看 到 文档 “i am the second document in the corpus" , ‘Ef SFV 为 
{1.3*0,1,1,1,1.6*0,1,.2.3*0}。 单 词 “am” 是 字典 中 的 第 一 个 单词 ， 并 且 在 文档 中 只 出 现 一 次 。 
单词 “before” 没 有 出 现在 文档 中 ， 所 以 它 的 值 为 0， 以 此 类 推 。 函 数 madlib.svec_sfv0 能 够 将 
大 量 文档 高 速 并 行 转换 为 对 应 的 SEV o 

分 类 处 理 的 其 余部 分 都 是 向 量 运算 。 实际 应 用 中 很 少 使 用 实际 计数 值 , 而 是 将 计数 转 为 权 
重 。 最 普通 的 权重 叫做 tfiidf， 对 应 术语 是 Term Frequency / Inverse Document Frequency。 对 给 
定 文档 中 给 定单 词 的 权重 计算 公式 为 : 


{#Times in document} * log {#Documents / #Documents the term appears in} 


例如 , 单词 “document” 在 文档 A 中 的 权重 为 1 * log (4/3), 而 在 文档 D 中 的 权重 为 2 * log 
(4/3)。 在 每 个 文档 中 都 出 现 的 单词 的 权重 为 0， 因为 log (4/4) = log(1) = 0。 对 于 这 部 分 处 理 ， 
我 们 需要 一 个 具有 字典 维 数 〈19) DL s TOR: 

log (#documents/#Documents each term appears in) 

整个 文档 列表 对 应 单一 上 述 向 量 。#documents 是 文档 总 数 ， 本 例 中 是 4， 但 对 于 每 个 字典 
单词 都 对 应 一 个 分 母 ， 其 值 为 出 现 该 单词 的 文档 数 。 这 个 向 量 再 乘 以 每 个 文档 SFV 中 的 计数 ， 
结果 即 为 ttidf 权重 。 


drop table if exists corpus; 








create table corpus 
as (select a, madlib.svec_sfv((select a from features),b) sfv 


from documents) ; 


drop table if exists weights; 
create table weights 
as (select a docnum, madlib.svec mult(sfv, logidf) tf_idf 
from (select madlib.svec log(madlib.svec div( 
count(sfv)::madlib.svec,madlib.svec count nonzero(sfv))) logidf 
from corpus) foo, corpus order by docnum); 


查询 权重 : 


dm=# select * from weights; 
docnum | tf_idf 


{4,1,1,1,2,3,1,2,1,1,1,1}: {0,0.693147180559945,0.287682072451781, 0,0.693147180 
559945,0,1.38629436111989,0,0.287 
682072451781, 0, 1.38629436111989, 0} 
21 
{1,3,1,1,1,1,6,1,1,3}:{1.38629436111989,0,0.693147180559945, 0.287682072451781, 
1.38629436111989,0.69314718055994 
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5,0,1.38629436111989,0.575364144903562, 0} 

Su 
(2,2,5,1,2,1,1,2,1,1,1):(0,1.38629436111989,0,0.693147180559945,1.386294361119 
89,0,1.38629436111989,0,0.6931471 

80559945,0,1.38629436111989} 

4 | 
{1,1,3,1,2,2,5,1,1,2}:{0,1.38629436111989,0,0.575364144903562,0,0.693147180559 
945,0,0.575364144903562,0.6931471 

80559945,0} 
(4 rows) 


现在 就 可 以 使 用 文档 向 量 的 点 积 的 ACOS， 获 得 一 个 文档 与 其 他 文档 的 “ 角 距 离 ”。 下 面 
计算 第 一 个 文档 与 其 他 文档 的 角 距 离 : 


dm=# select docnum, 180. * 


dm-# (acos (madlib.svec_dmin(1., madlib.svec_dot(tf_idf, testdoc) 
dm (4 / (madlib.svec l2norm(tf idf) 
dm (# * madlib.svec l2norm(testdoc))))/3.141592654) angular distance 


dm-# from weights, 

dm-# (select tf_idf testdoc from weights where docnum = 1 limit 1) foo 
dm-# order by 1; 

docnum | angular distance 


2 | 78.8235846096986 

3 | 89.9999999882484 

4 | 80.0232034288617 
(4 rows) 


可 以 看 到 文档 1 与 自己 的 角 距 离 为 0 度 ， 而 文档 1 与 文档 3 的 角 距离 为 90 度 ， 因 为 它们 
之 间 没 有 任何 相同 的 单词 。 

前 面 已 经 提 到 ,SVEC 提供 了 从 给 定 的 位 置 数组 和 值 数 组 声明 一 个 稀 朴 向 量 的 功能 。 下 面 
再 看 一 个 例子 。 

dm=# select madlib.svec cast positions float8arr( 

dm (# array[1,2,7,5,87],array[.1,.2,.7,.5,.87],90,0.0) ; 


Svec cast positions float8arr 


{1,1,2,1,1,1,79,1,3}:{0.1,0.2,0,0.5,0,0.7,0,0.87,0} 

(1 row) 

第 一 个 整数 数组 表示 第 二 个 浮 点 数 数组 的 位 置 ， 即 结果 数组 的 第 1、2、5、7、87 下 标 对 
应 的 值 分 别 为 0.1、0.2、0.5、0.7、0.87。 位置 本 身 不 需要 有 序 ， 但 要 和 值 的 顺序 保持 一 致 。 第 
三 个 参数 表示 数组 的 最 大 维 数 。 小 于 1 最 大 维度 将 被 忽略 , 此 时 数组 的 最 大 维度 就 是 位 置 数组 
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中 的 最 大 下 标 。 最 后 的 参数 表示 没有 提供 下 标的 位 置 上 的 值 。 


19.3.2 4ER 


矩阵 是 MADIib 中 数据 的 基本 格式 , 通常 是 二 维 的 。 在 MADIib 中 ， 数 组 的 概念 与 向 量 类 
似 ， 数 组 通常 是 一 维 的 ， 是 矩阵 的 一 种 特殊 形式 。 


1. 矩阵 表示 

MADIib 支持 稠密 和 稀 政 两 种 矩阵 表示 形式 ， 所 有 和 矩阵 运算 都 以 其 中 一 种 表示 形式 工作 。 
CD 稠密 

和 矩阵 被 表示 为 一 维 数组 的 分 布 式 集合 ， 例 如 3X10 的 矩阵 如 下 表 : 


1 | (9,6,5,8,5,6,6,3,10,8) 
2 | (8,2,2,6,6,10,2,1,9,9) 

3 | (3,9,9,9,8,6,3,9,5,6) 

(20 Fili 

使 用 行列 下 标 指示 和 矩阵 中 每 一 个 非 零 项 ， 例 如 : 


row_id | col_id | value 


2. 和 矩阵 运算 
(1) 数组 运算 
MADIib 的 数组 运算 模块 提供 了 一 组 用 C 和 SQL 实现 的 基本 数组 操作 ， 是 需要 快速 数组 
操作 的 机 器 学 习 算 法 的 支持 模块 。 数 组 运算 函数 支持 以 下 数据 类 型 : 
@ SMALLINT 
INTEGER 
BIGINT 
REAL 
DOUBLE PRECISION (FLOATS ) 
NUMERIC (内 部 被 转化 为 FLOAT8， 可 能 丢失 精度 ) 


另外 ，array_unnest_2d to_1d(0) 函 数 还 支持 TEXT 和 VARCHAR 数据 类 型 。 
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© 数组 运算 函数 
MADIib 提供 了 丰富 的 数组 运算 函数 ， 函 数列 表 及 功能 描述 如 表 19-2 所 示 。 
表 19-2 MADIib 数组 函数 

































































函数 描述 

sum() 向 量 元 素 求 和 ， 需 要 所 有 值 非 空 ， 返 回 与 输入 相同 的 数据 类 型 

array add() 两 个 数组 相 加 ， 需 要 所 有 值 非 空 ， 返 回 与 输入 相同 的 数据 类 型 

array_sub() 两 个 数组 相 减 ， 需 要 所 有 值 非 空 ， 返 回 与 输入 相同 的 数据 类 型 

array mult() 两 个 数组 相 乘 ， 需 要 所 有 值 非 空 ， 返 回 与 输入 相同 的 数据 类 型 

array_div() 两 个 数组 相 除 ， 需 要 所 有 值 非 空 ， 返 回 与 输入 相同 的 数据 类 型 

array dot() 两 个 数组 点 积 ， 需 要 所 有 值 非 空 ， 返 回 与 输入 相同 的 数据 类 型 

array_contains() 检查 一 个 数组 是 否 包含 另 一 个 数组 。 如 果 右边 数组 中 的 每 个 非 零 元 素 都 等 于 左边 
数组 中 相同 下 标的 元 素 ， 函 数 返 回 TRUE 

amay max() 返回 数组 中 的 最 大 值 ， 忽 略 空 值 ， 返 回 与 输入 相同 的 数据 类 型 

array_max_index() 返回 数组 中 的 最 大 值 及 其 对 应 的 下 标 ， 忽 略 空 值 ， 返 回 类 型 的 格式 为 [max, index], 
其 元 素 类 型 与 输入 类 型 相同 

amay min() 返回 数组 中 的 最 小 值 ， 忽 略 空 值 ， 返 回 与 输入 相同 的 数据 类 型 

array_min_index() 返回 数组 中 的 最 小 值 及 其 对 应 的 下 标 ， 忽 略 空 值 ， 返 回 类 型 的 格式 为 [min, index], 
其 元 素 类 型 与 输入 类 型 相同 

array_sum() 返回 数组 中 值 的 和 ， 忽 略 空 值 ， 返 回 与 输入 相同 的 数据 类 型 

array_sum_big() 返回 数组 中 值 的 和 ， 忽 略 空 值 ， 返 回 FLOATS 类 型 。 该 函数 的 意思 是 当 汇 总 值 可 
能 超出 元 素 类 型 范围 时 ， 蔡 换 array_sum() — 

amay abs sum() 返回 数组 中 绝对 值 的 和 ， 和 忽略 空 值 ， 返 回 与 输入 相同 的 数据 类 型 

array abs() 返回 由 数组 元 素 的 绝对 值 组 成 的 新 数组 ， 需 要 所 有 值 非 空 

array_mean() 返回 数组 的 均值 ， 忽 略 空 值 

array stddev() 返回 数组 的 标准 差 ， 忽 略 空 值 

amay of float() 该 函数 创建 元 素 个 数 为 参数 值 的 FLOATS 数组 ， 初 始 值 为 0.0 

amay of bigint() 该 函数 创建 元 素 个 数 为 参数 值 的 BIGINT 数组 ， 初 始 值 为 0 

array fill() 该 函数 将 数组 每 个 元 素 设置 为 参数 值 

array_filter() 该 函数 只 保留 输入 数组 中 符合 指定 标量 运算 符 的 元 素 。 要 求 是 一 维 数组 ， 并 且 所 
有 值 非 空 。 返 回 与 输入 相同 的 数据 类 型 。 默 认 时 该 函数 移 除 所 有 0 值 

amay scalar mult() 该 函数 将 一 个 数组 作为 输入 ， 元 素 与 第 二 个 参数 指定 的 标量 值 相 乘 ， 返 回 结果 数 
组 。 需 要 所 有 值 非 空 ， 返 回 与 输入 相同 的 数据 类 型 

array_scalar_add() 该 函数 将 一 个 数组 作为 输入 ， 元 素 与 第 二 个 参数 指定 的 标量 值 相 加 ， 返 回 结果 数 
组 。 需 要 所 有 值 非 空 ， 返 回 与 输入 相同 的 数据 类 型 

array_sqrt() 返回 由 数组 元 素 的 平方 根 组 成 的 数组 ， 需 要 所 有 值 非 空 

amay pow() 该 函数 以 数组 和 一 个 float8 AMA, BEE CRNA (HA SSR) 
组 成 的 数组 ， 需 要 所 有 值 非 空 

array square() 返回 由 数组 元 素 的 平方 组 成 的 数组 ， 需 要 所 有 值 非 空 

normalize() 该 函数 规范 化 一 个 数组 ， 使 它 的 元 素平 方 和 为 1。 要 求 是 一 维 数组 ， 且 所 有 值 非 空 
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@ 数组 运算 示例 

建立 一 个 数据 表 ， 包 含 两 个 整 型 数组 列 ， 并 添加 数据 。 

drop table if exists array tbl; 

create table array tbl (id integer, arrayl integer[], array2 integer[]); 
insert into array tbl values 

(1, '{1,2,3,4,5,6,7,8,9}', '(9,8,7,6,5,4,3,2,1]' ), 

( 2, '{1,1,0,1,1,2,3,99,8}','{0,0,0,-5,4,1,1,7,6}" ); 


查询 array] 列 的 最 小 值 、 最 大 值 、 均 值 和 标准 差 。 


dm=# select id, minl, maxl, min idxl, max_idx1,round(mean1::numeric,4) meanl, 


dm-# round (stddevl::numeric,4) stddevl 

dm-# from (select id, 

dm (4 madlib.array min(arrayl) minl, 

dm (4 madlib.array max(arrayl) maxl, 

dm (4 madlib.array min index(arrayl) min idxl, 

dm (# madlib.array max index(arrayl) max idxl, 

dm (s madlib.array mean(arrayl) meanl, 

dm (# madlib.array stddev(arrayl) stddevl 

dm (4 from array tbl) tl; 

id | minl | maxl | min idxl | max idxl | meanl | stddevi 

-T---4------ 4------ 4---------- 4---------- 4--------- 4--------- 
TT iE ji Cy d stiegen | Woes | 5.0000 | 2.7386 
2 1 0 | 99 | {0,3} | (99,8) | 12.8889 | 32.3784 

(2 rows) 

执行 数组 加 减 。 

dm=# select id, 

dm-# madlib.array add(arrayl,array2), 

dm-# madlib.array sub(arrayl,array2) 

dm-# from array tbl; 

id | array add l array_sub 

Seg oe ee ec: Pehe sec: 
1 | {10,10,10,10,10,10,10,10,10} | {-8,-6,-4,-2,0,2,4,6,8} 
2 | {1,1,0,-4,5,3,4,106,14} | {1,1,0,6,-3,1,2,92,2} 

(2 rows) 


执行 数组 乘除 .不 包含 id=2 的 行 , 因为 有 除数 为 0, 会 报错 ERROR: division by zero is not 
allowed。 

dm=# select id, 

dm-# madlib.array mult (arrayl,array2), 


dm-# madlib.array div(arrayl,array2) 
dm-# from array tbl 
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dm-# where 0 != all(array2); 

ail || array_mult | array div 

Sot imc: He SS 
1 | {9,16,21,24,25,24,21,16,9} | {0,0,0,0,1,1,2,4,9} 

(1 row) 


计算 数组 的 点 积 ， 并 根据 点 积 定义 验证 结果 。 


dm=# select id, 

dm-# madlib.array dot(arrayl, array2), 

dm-# madlib.array sum(madlib.array mult(arrayl,array2) ) 
dm-# from array tbl; 


id | array dot | array sum 


AU amete eget Popti esate es 
ab | 16520] 165 
220] 745 | 745 
(2 rows) 
数组 元 素 乘 标量 值 3。 
dm=# select id, arrayl, madlib.array scalar mult(arrayl,3) from array tbl; 
id | arrayl | array_scalar_mult 
Seiler cee aeons) Me eae ee ee 
1 | {1,2,3,4,5,6,7,8,9} | (3,6,9,12,15,18,21,24,27] 
2 | {1,1,0,1,1,2,3,99,8} | {3,3,0,3,3,6,9,297,24} 
(2 rows) 


构造 一 个 包含 9 个 元 素 的 数组 ， 每 个 元 素 值 设置 为 1.3。 


dm=# select madlib.array fill(madlib.array of float(9), 1.3::float); 
array fill 
{1.3,1.3,1.3,1.3,1.3,1.3,1.3,1.3,1.3} 
(1 row) 


将 二 维 数组 列 展开 为 一 维 数组 集合 。array_unnest_2d to 1d 是 MADIib 1.11 版 本 的 新 增 函 
数 ， 用 于 将 二 维 数组 展开 为 一 维 数组 。1.10 版 本 无 次 函数 ， 但 可 以 创建 一 个 UDF 实现 。 


create or replace function madlib.array unnest 2d to ld(anyarray) 

returns table(unnest row id int, unnest result anyarray) as 

$func$ 

select dl,array agg(val) 

from (select $1[d1][d2] val,di,d2 
from generate series(array lower($1,1), array upper($1,1)) dl, 
generate series(array lower($1,2), array upper($1,2)) d2 

order by dl,d2) t 
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group by dl 
$func$ language sql immutable; 


之 后 就 可 以 调用 函数 展开 二 维 数组 : 


dm=# select id, (madlib.array unnest_2d_to_1d(val)).* 
dm-# from (select 1::int as id, 


dm (# array[[1.3,2.0,3.2], [10.3,20.0,32.2]] 
dm (# ::float8[][] as val 
dm (# union all 
dm (# select 2, 
dm (# array[[pi(),pi()/2], [2*pi(),pi()], [pi()/4,4*pi()] 
dm (4 ::float8[][]) t 
dm-# order by 1,2; 
id | unnest row id | unnest result 
SSeS soe Cau ee es 
|| il | basin say) 
ab | 2 | {10.3,20,32.2} 
22] i | {3.14159265358979,1.5707963267949} 
eui 2 | (6.28318530717959,3.14159265358979) 
a || 3 | {0.785398163397448,12.5663706143592} 


如 果 调 用 函数 时 不 用 .* 标 记 ， 函 数 将 返回 具有 两 个 属性 〈 行 ID 和 对 应 的 展开 后 一 维 数组 ) 

的 复合 记录 类 型 。 
(2) ABESSE PR He 

和 矩阵 运算 函数 支持 的 数据 类 型 包括 SMALLINT, INTEGER, BIGINT, FLOATS 和 
NUMERIC (内 部 被 转化 为 FLOAT8， 可 能 丢失 精度 ) 。 

(D 矩阵 运算 函数 分 类 

矩阵 运算 函数 可 大 致 分 成 以 下 类 型 ; 

© 表示 函数 : 

-- 转化 为 稀 朴 矩阵 

matrix_sparsify( matrix_in, in_args, matrix_out, out_args) 

- 转化 为 稠密 矩阵 

matrix_densify( matrix_in, in_args, matrix_out, out_args) 

-- 获取 矩阵 的 维度 

matrix_ndims( matrix_in, in_args ) 

e 算数 函数 : 

-- 矩阵 转 置 


matrix_trans( matrix_in, in_args, matrix_out, out_args) 
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一 SEFERUM 


matrix_add( matrix_a, a_args, matrix_b, b_args, matrix_out, out_args) 


-- 矩阵 相 减 

matrix_sub( matrix_a, a_args, matrix_b, b_args, matrix_out, out_args) 

-- FEM sei 

matrix_mult( matrix_a, a_args, matrix_b, b_args, matrix_out, out_args) 
matrix elem mult( matrix a, a args, matrix b, b args, matrix out, out args) 
-- br SEE 

matrix_scalar_mult( matrix_in, in_args, scalar, matrix_out, out_args) 

-- 向 量 乘 矩 阵 

matrix_vec_mult( matrix_in, in_args, vector) 

e ”提取 函数 : 


-- 从 行 下 标 提取 行 

matrix_extract_row( matrix_in, in_args, index) 
- 从 列 下 标 提取 列 

matrix_extract_col( matrix_in, in_args, index) 
-- 提取 主 对 角 线 元 素 


matrix_extract_diag( matrix_in, in_args) 


€ MA HSK ( 跨 指 定 维度 的 聚合 ) : 

-- 获取 维度 最 大 值 。 如 果 fetch_index = True， 返 回 对 应 的 下 标 。 
matrix_max( matrix_in, in_args, dim, matrix_out, fetch_index) 

-- 获取 维度 最 小 值 。 如 果 fetch_index = True， 返 回 对 应 的 下 标 。 
matrix_min( matrix_in, in_args, dim, matrix_out, fetch_index) 

-- 获取 维度 的 和 

matrix_sum( matrix_in, in_args, dim) 

-- 获取 维度 的 均值 

matrix_mean( matrix_in, in_args, dim) 

-- 获取 矩阵 范 数 

matrix_norm( matrix_in, in_args, norm_type) 

e 创建 函数 : 

-- 创建 一 个 指定 矩阵 ， 用 1 初始 化 为 给 定 的 行列 维度 。 
matrix_ones( row_dim, col dim, matrix_out, out_args) 

- 创建 一 个 指定 和 矩阵， 用 0 初始 化 为 给 定 的 行列 维度 。 
matrix_zeros( row_dim, col dim, matrix_out, out_args) 


-- 创建 正方 形 恒 等 矩阵 
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matrix_identity( dim, matrix_out, out_args) 

-- 用 给 定 对 角 元 素 初始 化 矩阵 

matrix_diag( diag_elements, matrix_out, out_args) 

-- 用 从 分 布 中 采样 的 值 初始 化 和 矩阵。 支持 普 通 、 均 匀 、 伯 努 利 分 布 。 
matrix_random( distribution, row_dim, col_dim, in_args, matrix_out, out_args ) 
e 分解 函数 ; 

-- 矩阵 求 逆 

matrix_inverse( matrix_in, in_args, matrix_out, out_args) 

-- 广义 逆 矩 阵 

matrix_pinv( matrix_in, in_args, matrix_out, out_args) 

-- 矩阵 特征 提取 

matrix_eigen( matrix_in, in_args, matrix_out, out_args) 

-- Cholesky 分 解 

matrix_cholesky( matrix_in, in_args, matrix_out_prefix, out_args) 
-- QR 分 解 

matrix qr( matrix in, in args, matrix out prefix, out_args) 

-- LU 分 解 

matrix_lu( matrix_in, in_args, matrix_out_prefix, out_args) 

-- FEE TER 

matrix_nuclear_norm( matrix_in, in_args) 

-- 矩阵 的 秩 


matrix_rank( matrix_in, in_args) 


分 解 函数 仅 基于 内 存 操作 实现 。 单 一 节点 的 矩阵 数据 被 用 于 分 解 计算 。 这 种 操作 只 适合 小 
型 矩阵 ， 因 为 计算 不 是 分 布 到 个 多 个 节点 的 。 


© 稠密 矩阵 运算 示例 
创建 两 个 4X4 的 示例 稠密 矩阵 表 。 


drop table if exists mat_a; 

create table mat_a (row_id integer, row_vec integer[]); 

insert into mat_a (row_id, row_vec) values 

(1, '(9,6,5,8)'), (2, '(8,2,2,6)'), (3, '(3,9,9,9)'), (4, '(6,4,2,2)'); 


drop table if exists mat b; 

create table mat b (row id integer, vector integer[]); 

insert into mat b (row id, vector) values 

(1, '(9,10,2,4)'), (2, '{5,3,5,2}'), (3, '(0,1,2,3)'), (4, '(2,9,0,4]"); 


矩阵 转 置 。matrix_trans 函数 的 第 一 个 参数 是 源 表 名 ， 第 二 个 参数 指定 行 、 列 字段 名 ， 第 
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HAWQ 数据 仓库 与 数据 挖掘 实战 


三 个 参数 为 输出 表 名 。 


提取 和 矩阵 的 主 对 角 线 。 





合 HAWQ 5 MADIib 





aes faepe. 


创建 单位 矩阵 。 





DROP TABLE 
dm=# select madlib.matrix identity(4, 'mat r', 
'row-row id,col-col id,val-val'); 
matrix identity 


dm=# select * from mat r order by row id; 


row id | col id | val 


4 


(4 rows) 
提取 指定 下 标的 行 或 列 。 


dm=# select madlib.matrix extract row('mat a','row-row id,val-row vec',2) as 


row, 
dm-# madlib.matrix extract col('mat a','row-row id,val-row vec',3) as 
col; 
row | col 
Be M Soe ees 
{8,2,2,6} | {5,2,9,2} 
(1 row) 


获取 指定 维度 的 最 大 最 小 值 及 其 对 应 的 下 标 。dim=2 表示 计算 每 一 行 的 最 大 最 小 值 , 返回 


-个 列 向 量 。 


dm=# drop table if exists mat_max_r; 





El 


DROP TABLE 
dm=# drop table if exists mat min r; 
DROP TABLE 
dm=# select madlib.matrix max('mat a', 'row-row id, val-row vec', 2, 
dm (4 'mat max r', true), 
dm-# madlib.matrix min('mat a', 'row-row id, val-row vec', 2, 
dm (4 'mat min r', true); 
matrix max | matrix min 
eee ie cese SECO A 
(mat_max_r) | (mat_min_r) 
(1 row) 


dm=# select * from mat_max_r; 
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*& HAWQ 5 MADlib 


FL chs SC MEA ME. 





用 稠密 格式 初始 化 矩阵 。 








HAWQ 数据 仓库 与 数据 挖掘 实战 


aza 
两 个 逢 阵 元 素 相 乘 。 


按 维 度 求 和 ， 本 例 中 每 行 求 和 。 


获取 维度 均值 。 





向 量 乘 矩阵 。 


获取 和 矩阵 的 行列 维度 数 。 


© Muti eie SEC DI 
Tk Rp E FE iiA I o 





合 HAWQ 5 MADIib 





4 q 2 10 
3L d e T 2 
ab Wl 4 | 4 
2 || (EUIS 
e a2 R} 
ee ei || iS 
e 4 | 2 
SI ee | ak 
I SEIS? 
ex |] Cs 
4| ab 2 
41 PAR ES 
4| 4 | 4 
(14 rows) 


FF OE — A Bii FER o 

drop table if exists mat a sparse; 

create table mat a sparse 

(rownum integer, col num integer, entry integer); 
insert into mat a sparse values 

(1, 1, 9), (1, 2, 6), (2, 1, 8), (2, 3, 6), 

(3, 1, 6), (3, 2, 3), (4, 1, 7T), (4, 4, 8); 


获取 行列 维度 数 。 
dm=# select madlib.matrix ndims('mat a sparse', 'row-"rownum", val=entry'); 


matrix ndims 


SPA FARE, a Fe Hk BA REN 
dm=# drop table if exists matrix_r_ sparse; 
NOTICE: table "matrix r sparse" does not exist, skipping 
DROP TABLE 
dm=# drop table if exists matrix r; 
NOTICE: table "matrix r" does not exist, skipping 
DROP TABLE 
dm=# select madlib.matrix add('mat a sparse', 'row-rownum, val-entry', 
dm (# 'mat b sparse', 'row-row id, col-col id, val-val', 
dm (# 'matrix r sparse', 'col-col out'); 
matrix add 


(matrix r sparse) 
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dm=# select madlib.matrix trans('mat a sparse', 'row-rownum, val-entry', 
dm (# 'matrix r sparse'); 
matrix trans 
(matrix r sparse) 


(1 row) 


dm=# select rownum, col num, entry frommatrix r sparse order by col num, rownum; 


rownum | col num | entry 


€— dec 
at i 9 
ZZ. || al 6 
| 2 8 
3! 2 || 6 
ENT Su 6 
2 | 3l S 
ST 4| 7 
4| 4| 8 
(8 rows) 


计算 矩阵 的 Euclidean 范 数 。 
dm=# select madlib.matrix norm('mat a sparse', 'row-rownum, 
dm' # col=col_num, val=entry', '2'); 


matrix_norm 


19.364916731 
(1 row) 


Ne 


在 HAWQ 中 只 使 用 SQL 的 查询 语句 就 能 进行 简单 的 数据 挖掘 ， 这 是 通过 整合 MADIib 
实现 的 。MADlib 是 一 个 开源 机 器 学 习 库 ， 它 将 算法 封装 成 可 在 SQL 中 调用 的 函数 ， 大 大 简 
化 了 数据 挖掘 的 开发 工作 。 本 章 说 明了 MADlib 在 HAWQ 中 的 安装 与 卸载 过 程 ， 介 绍 了 
MADIib 中 向 量 、 数 组 、 和 矩阵 的 概念 ， 及 其 相关 函数 的 使 用 方法 ， 为 后 面 章节 的 数据 挖掘 应 用 
打下 基础 。 
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SEBS 2) fF CIRRUS PRE RDI ARCH EES EO, AERA LAD AE 
一 般 假 设 原始 矩阵 是 低 秩 的 (矩阵 中 最 大 不 相关 向 量 的 个 数 , 称 为 矩阵 的 秩 ,可 以 简单 理解 为 
有 秩序 的 程度 )， 我 们 可 以 从 给 定 的 值 来 还 原 整 个 矩阵 。 由 于 直接 求解 矩阵 从 算法 以 及 参数 的 
复杂 度 来 说 效率 很 低 ， 因 此 常用 的 方法 是 把 原始 矩阵 分 解 为 几 个 子 窍 阵 相 乘 。MADlib 支持 两 
种 矩阵 分 解 方 法 , 分 别 是 低 秩 矩阵 分 解 和 奇异 值 分 解 。 本 章 介绍 MADIib 奇异 值 分 解 模型 对 应 
的 函数 ， 以 及 如 何 应 用 它 实现 典型 的 推荐 算法 。 


20.1 奇异 值 分 解 简 介 


奇异 值 分 解 简称 SVD (singular value decomposition》， 可 以 理解 为 :将 一 个 比较 复杂 的 
和 矩阵 用 更 小 更 简单 的 三 个 子 矩 阵 的 相 乘 来 表示 , 这 三 个 小 矩阵 描述 了 大 矩阵 重要 的 特性 。SVD 
的 用 处 有 很 多 ， 比 如 : LSA〔 隐 性 语义 分 析 ) 、 推 荐 系统 、 数 据 降 维 、 信 和 号 处 理 与 统计 等 。 

任何 矩阵 都 可 以 使 用 SVD 进行 分 解 ， 对 于 一 个 MXN (M>=N) 的 矩阵 M， 存 在 以 下 的 
SVD 分 解 : 


Mmxn = —3 (axn)" 
二 是 一 个 对 角 和 矩阵 ， 其 中 的 元 素 值 就 是 奇异 值 ， 并 且 按 照 从 大 到 小 的 顺序 排列 。 很 多 情况 


下 ， 前 10% 甚 至 更 少 的 奇异 值 的 平方 就 占 全 部 奇异 值 平 方 的 90% 以 上 了 ， 因 此 可 以 用 前 k 个 
奇异 值 来 近似 描述 矩 阵 : 


Mmxn 8 Umxk 2; nx)” 
kxk 


大 的 取 值 由 下 面 的 公式 决定 : 


k 2 
Vii OF 


m 2 percentage 


i=1 °C 


其 中 percentage 称 为 “奇异 值 平方 和 占 比 的 阔 值 ”， 一 般 取 90%, kj 





的 值 ， 这 样 也 就 达到 了 降 维 的 目的 。 


MADIib 奇异 值 分 解 函数 


MADIib 的 SVD BARCI LAX HA RE E BERN FE AE BEREIT A AERAR 


AN tbat AE BEE 1 AS b T PE GE SKIL PA AC o 


1. 稠密 矩阵 的 SVD 函数 
(1) 语法 
svd( source table, 
output_table prefix, 
row_id, 
k, 
n_iterations, 


result summary table ); 


(2) BR 


Mith F m HI n 


并 且 还 提供 了 一 


source table: TEXT 类 型 ， 源 表 名 HEEE) 。 表 含有 一 个 row id 列 标识 每 一 行 ， 从 
数字 1 开始 。 其 他 列 包 含 矩阵 的 数据 。 可 以 使 用 两 种 稠密 格式 的 任何 一 个 ， 例 如 下 面 示例 的 2 


x 2 矩阵。 
格式 一 : 
row_id coll col2 
rowl 1 ul 0 
row2 2 0 1 
格式 二 : 
row id row vec 
rowl 里 {1, 0} 
row2 2 {0, 1} 
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output table prefix: TEXT 类 型 ， 输 出 表 的 前 级 。 
row id: TEXT 类 型 ， 代 表 行 ID 的 列 名 。 
k: INTEGER 类 型 ， 计 算 的 奇异 值 个 数 。 





n iterations (可 选 ) : INTEGER 类 型 ， 运 行 的 迭代 次 数 ， 必 须 在 [k, 列 维度 数 ] 范 围 内 ，k 
是 奇异 值 个 数 。 


result summary table (Xt) : TEXT 类 型 ， 存 储 结果 摘要 的 表 的 名 称 。 
2. BSUGEPERS SVD 函数 


表示 为 稀 芷 格式 的 矩阵 使 用 此 函数 。 为 了 高 效 计算 ， 在 奇异 值 分 解 操 作 之 前 ， 输 入 矩阵 会 
被 转换 为 稠密 矩阵 。 
(1) 语法 

svd_sparse( source table, 
output table prefix, 
row id, 
col id, 
value, 
row dim, 
col dim, 
k, 
n iterations, 


result summary table ); 
(2) 参数 
source table: TEXT KÆ, WKE AMEE) o MuR RB PEDE HEAT SP ad as RIETI ES 
非 零 条 目 ， 非 常 适合 含有 很 多 零 元 素 的 矩阵。 如 下 面 所 示 的 4X7 和 矩阵 ， 除 去 零 值 只 有 6 1T. 
和 矩阵 的 维度 由 行 、 列 的 最 大 值 推导 出 来 。 需 要 注意 最 后 一 行 ， 即 使 是 0 也 要 包含 这 一 行 ， 因 为 
它 标识 了 和 矩阵 的 维度 ， 并 暗示 了 第 4 行 与 第 7 列 全 是 0。 


row_id | col_id | value 


(6 rows) 


output table prefix: TEXT 类 型 ， 输 出 表 的 前 级 。 
row id: TEXT 类 型 ， 包 含 行 下 标的 列 名 。 

col id: TEXT 类 型 ， 包 含 列 下 标的 列 名 。 

value: TEXT 类 型 ， 包 含 值 的 列 名 。 

row dim: INTEGER 类 型 ， 和 矩阵 的 行 数 。 

col dim: INTEGER 类 型 ， 和 矩阵 的 列 数 。 

k: INTEGER 类 型 ， 计 算 的 奇异 值 个 数 。 
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n iterations Cn[3E) : INTEGER 类 型 ， 运 行 的 迭代 次 数 ， 必 须 在 [k， 列 维度 数 ] 范 围 内 ，k 
是 奇异 值 个 数 。 

result_summary_table〈 可 选 ) : TEXT 类 型 ， 存 储 结果 摘要 的 表 的 名 称 。 

3. 稀 琉 和 矩 阵 的 本 地 实现 SVD 函数 


此 函数 在 计算 SVD 时 使 用 本 地 稀疏 表示 “〈 不 跨 节 点 ) ， 能 够 更 高 效 地 计算 稀 朴 和 矩阵， 适 
合 高 度 稀 朴 的 矩阵 。 
CD 语法 

svd_sparse native( source table, 
output_table prefix, 
row_id, 
col_id, 
value, 
row_dim, 
col dim, 
k, 
n iterations, 
result summary table ); 

(2) 参数 

参数 含义 与 svd_sparse 函数 相同 。 

4. 输出 表 

三 个 SVD 函数 的 输出 都 是 以 下 三 个 表 : 

左 奇异 值 矩 阵 表 : 表 名 为 <output_table_prefix>_u。 

右 奇异 值 和 矩阵 表 : 表 名 为 <output_ table prefix» v. 

奇异 值 和 矩阵 表 : 表 名 为 <output_table_prefix> s. 


左右 奇异 值 向 量 表 的 格式 为 : 


row id: INTEGER 类 型 。 每 个 特征 值 对 应 的 ID. 
row vec: FLOAT8[] 类 型 。 该 row_id 对 应 的 特征 向 量 元 素 ， 数 组 大 小 为 k。 


由 于 只 有 对 角 线 元 素 是 非 零 的 ， 奇 异 值 表 采用 稀疏 表格 式 ， 其 中 的 row_id 和 col id 都 是 
从 1 开始: 


row id: INTEGER 类 型 ， 第 i 个 奇异 值 为 i。 
col id: INTEGER 类 型 ， 第 i 个 奇异 值 为 1 C5 row id 相同 〉。 
value: FLOATS8 类 型 ， 奇 异 值 。 


结果 摘要 表 有 以 下 列 : 
rows_used: INTEGER 类 型 ，SVD 计算 使 用 的 行 数 。 
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exec time: FLOATS 类 型 ， 计 算 SVD 使 用 的 总 时 间 。 
iter: INTEGER 类 型 ， 和 迭代 运行 次 数 。 
recon error: FLOATS 类 型 ， 质 量 得 分 (如 近似 精度 ) 。 计 算 公式 为 : 


[mean — USV?y) 


relative recon error: FLOATS 类 型 ， 相 对 质量 分 数 。 计 算 公 式 为 : 


|mean(x8) 
5. 联机 帮助 


可 以 执行 下 面 的 查询 获得 SVD 函数 的 联机 帮助 。 


select madlib.svd(); 

-- FRE 

select madlib.svd('usage'); 
-- 示例 


select madlib.svd('example'); 


奇异 值 分 解 实现 推荐 算法 


1. 问题 提出 

假设 要 做 一 个 音乐 作品 个 性 化 推荐 系统 。 业务 收集 到 的 原始 用 户 行为 数据 是 , 每 个 用 户 为 
他 所 收听 过 的 歌曲 的 打分 。 分 数 的 定义 为 : 单 曲 循环 =5， 分 享 =4， 收 藏 =3， 主 动 播放 =2， 听 
完 =1， 跳 过 =-2， 拉 黑 =-5。 在 分 析 时 能 获得 的 实际 评分 矩阵 R， 也 就 是 输入 矩阵 大 概 是 图 20-1 
的 样子 。 





音乐 1 音乐 2 音乐 3 音乐 4 音乐 5 音乐 6 音乐 7 音乐 8 音乐 9 音乐 10 音乐 11 音乐 12 音乐 13 
5 -5 


用 户 1 5 3 1 5 
用 户 2 3 3 4 
用 户 3 1 2 5 4 2 2 2 
用 户 4 4 4 3 -2 5 3 

用 户 5 5 5 -5 4 3 4 

用 户 6 4 3 4 

用 户 7 -2 5 4 4 -2 
用 户 8 -2 5 5 4 -2 





图 20-1 用 户 评分 矩阵 


推荐 系统 的 目标 就 是 预测 出 空白 对 应 位 置 的 分 值 。 推荐 系统 基于 这 样 一 个 假设 : 用 户 对 项 
目的 打分 越 高 , 表明 用 户 越 喜欢 。 因 此 ， 预 测 出 用 户 对 未 评分 项 目的 评分 后 ， 根 据 分 值 大 小 排 
序 , 把 分 值 高 的 项 目 推荐 给 用 户 。 这 是 个 非常 稀 朴 的 窍 阵 ， 因 为 大 部 分 用 户 只 听 过 全 部 音乐 中 
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很 少 一 部 分 。 下 面 就 利用 MADIib 的 奇异 值 分 解 模 型 分 解 图 20-1 所 示 的 矩阵 ， 并 生成 相应 的 
推荐 矩阵 。 

2. 建立 输入 表 

(1) 建立 索引 表 

从 前 面 的 解释 可 以 看 到 , 推荐 矩阵 的 行列 下 标 分 别 表示 用 户 和 音乐 作品 。 然而 在 业务 系统 
中 ，userid 和 musicid 很 可 能 不 是 按 从 1 ~ N 的 规则 顺序 生成 的 ， 因 此 需要 建立 和 矩阵 下 标 值 与 
业务 表 ID 之 间 的 映射 关系 , 这 里 使 用 HAWQ 的 BIGSERIAL 自 增 数据 类 型 对 应 推荐 矩阵 的 索 
引 下 标 。 

-- 用 户 索引 表 

drop table if exists tbl idx user; 

create table tbl idx user (user idx bigserial, userid varchar(10)); 

-- 音乐 索引 表 

drop table if exists tbl idx music; 


create table tbl idx music (music idx bigserial, musicid varchar(10)); 
(2) 建立 用 户 行为 业务 表 


drop table if exists source data; 
create table source data ( 


userid varchar(10), -- HiP ID 
musicid varchar(10),  -- 作品 ID 
val floats -- 分 数 


) 
G) 建立 用 户 行为 矩阵 表 


drop table if exists svd_data; 
create table svd data ( 


row_id int, -- 行 ID， 从 1 开始 ， 表 示 用 户 
col_id int, -- 8j 1D, M1 开始 ， 表 示 作 品 
val float8 -- 分 数 

); 

3. 生成 输入 表 数 据 


(1) 生成 用 户 行为 业务 表 数 据 


insert into source data values 

CER Ure aye CASRN tales apy 

(*u2'!, 'm4', 3), 

(ies dsur. abe. Tire Mabie yer (xr T eate 

(*u4', "m2", 4), ('u4M', 'm3', 4), (*u4', 'm4', 3), ('u4'*, ‘mi, -2), 
o uod mima cre 5) EUS Minis Moe) Eu a loys sse 

pusta mure igs OO eG 7e 3) 
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有 

(tum ie ra) (Ori MeN Sie i 

(ug IM 2) US, mor SD) (fug me Ds 
(hie Sauer le TORRE MS ai CUS mA 


(2) 从 业务 表 生 成 索引 表 数 据 
-- 用 户 表 


insert into tbl_idx_user (userid) 
select distinct userid from source data order by userid; 


-- 音乐 表 
insert into tbl idx music (musicid) 
select distinct musicid from source data order by musicid; 

这 里 从 业务 数据 生成 有 过 打分 行为 的 9 个 用 户 , 以 及 被 打 过 分 的 8 个 作品 。 注 意 查 询 中 的 
排序 子 句 ， 作 用 是 便于 业务 ID 与 矩阵 里 的 行列 ID 对 应 。 

GO. 从 业务 表 和 索引 表 生 成 矩阵 表 数 据 

insert into svd_data 

select tl.user_idx, t2.music_idx, t3.val 

from tbl idx user tl, tbl idx music t2, source data t3 

where tl.userid = t3.userid and t2.musicid = t3.musicid; 

之 所 以 要 用 用 户 业务 表 作为 数据 源 ,是 因为 矩阵 中 包含 所 有 有 过 打分 行为 的 用 户 和 被 打 过 
分 的 作品 , 但 不 包括 与 没有 任何 打分 行为 相关 的 用 户 和 作品 。 如 果 包 含 无 行为 记录 的 用 户 或 作 
品 ， 会 在 计算 余弦 相似 度 时 出 现 除 零 错误 或 噪声 数据 。 

4. 调用 svd_sparse_native 函数 执行 SVD 

drop table if exists svd u, svd_v, svd_s, svd_summary cascade; 


select madlib.svd_sparse_native 
( 'svd data', -- HAK 


'svd', -- 输出 表 名 前 缀 
'row id', -- 行 索引 列 名 
*col id*, -- 列 索引 列 名 
'val', -- 矩阵 元 素 值 
9, -- EE 
8, -- FERRER 
7, -- 计算 的 奇异 值 个 数 ， 小 于 等 于 最 小 行列 数 
NULL, -- 使 用 默认 的 迭代 次 数 
'svd summary' -- 概要 表 名 ); 
说 明 : 


€ 选择 svd_sparse_native 函数 的 原因 是 测试 数据 比较 稀 路 ， 和 矩阵 实际 数据 只 占 1/3 
(25/72) ， 该 函数 效率 较 高 。 
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e RBA. 5|. THHAPADANA 9. 8. 7. svd sparse native 函数 要 求 行 数 大 
于 等 于 列 数 ,而 奇异 值 个 数 小 于 等 于 列 数 ， 否 则 会 报错 。 结果 U、V TK 
际 的 输入 数据 做 决定 ， 例 如 测试 数据 最 大 的 行 值 为 9， 最 大 列 值 为 8， 则 结果 U HEE 
的 行 数 为 9，V 短 阵 的 行 数 为 8， 而 不 论 行 、 列 参数 的 值 是 多 少 。U、V AEM AFSL, 
S FEE AY ATF SKI FARBER 


5. 查看 SVD 结果 


dm=# select array dims(row vec) from svd u; 


array dims 





zu 
(9 rows) 


dm=# select * from svd s order by row id, col id; 


row id| col idl value 

————— a 
du 1 | 10.6650887159422 
21 2 | 10.0400685494281 
3 3 | 7.26197376834848 
4| 4| 6.5227892843447 
2) || 5 | 5.11307075598297 
6 | 6 | 3.14838515537081 
7 1 7 | 2.67251694708376 
a T] wl 

(8 rows) 


dm=# select array dims(row vec) from svd_v; 


array dims 
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ERNA] 
ike] 
faker 
(8 rows) 


dm=# select * from svd_summary; 

rows used | exec time (ms) | iter | recon error | relative recon error 

----------- 4----------------4------4----------------4---------------------- 
Su abes || 8 | 0.116171249851 | 0.0523917951113 

(1 row) 


可 以 看 到 ， 结 果 U、V ABIEDUHERE PIE 9X 7:81 8X7, SEDE 7X 7 的 对 角 和 矩阵 。 
6. 对 比 不 同 奇异 值 个 数 的 近似 度 
让 我 们 按 k 的 取 值 公式 计算 一 下 奇异 值 的 比值 ， 验 证 k 设置 为 6、8 时 的 近似 程度 。 


-- k=8 
drop table if exists svd8 u, svd8 v, svd8 s, svd8 summary cascade; 
select madlib.svd sparse native 


('svd data', 'svd8', 'row id', 'col id', 'val', 9, 8, 8, NULL, 'svd8 summary'); 


-- k-6 
drop table if exists svd6 u, svd6 v, svd6 s, svd6 summary cascade; 
select madlib.svd sparse native 
('svd data', 'svd6', 'row id', 'col id', 'val', 9, 8, 6, NULL, 'svd6 summary'); 
对 比 近 似 度 : 
dm=# select * from svd6 summary; 
rows used | exec time (ms) | iter | recon error 
relative recon error 
-T---------- 4----------------p------4----------------4---------------------- 


ST 5722.47 | 8 | 0.335700790666 | 0.151396899541 
(1 row) 


dm=# select * from svd summary; 
rows used | exec time (ms) | iter | recon error | relative recon error 


9 | 122779 8 | 0.116171249851 | 0.0523917951113 
(1 row) 


dm=# select * from svd8_summary; 
rows_used | exec_time (ms) | iter | recon_error 
relative_recon_error 
----------- +----------------+------+-------------------+------------------- 


cn 6956.24 | 8 | 1.55727734667e-15 | 7.02312799276e-16 


(1 row) 


dm=# select s1/s3, s2/s3 
dm-# from (select sum(value*value) sl from svd6 s) tl, 


dm-# (select sum(value*value) s2 from svd_s) t2, 

dm-# (select sum(value*value) s3 from svd8_s) t3; 
?column? l ?column? 

yim eimi mm memet firmemente 

0.977078978809393 | 0.997255099805016 

(1 row) 


可 以 看 到 ， 随 着 k 值 的 增加 ， 误 差 越 来 越 小 。 在 本 示例 中 ， 奇 异 值 个 数 为 6、7 的 近似 度 
分 别 为 97.7% 和 99.7%， 当 k=8 时 并 没有 降 维 ， 分 解 的 矩阵 相 乘 等 于 原 矩 阵 。 后 面 的 计算 都 使 
用 k=7 的 结果 和 矩阵。 
7. 基于 用 户 的 协同 过 滤 算法 UserCF 生成 推荐 
所 谓 UserCF 算法 ， 简 单 说 就 是 依据 用 户 的 相似 程度 形成 推荐 。 
COD 定义 计算 余弦 相似 度 函 数 
余弦 相似 度 计算 公式 为 : 
dizi X y) 
Vai "a i)? x JXi 10%)? 
madlib.cosine_similarity() 函 数 返 回 两 个 向 量 的 余弦 相似 度 。 
(2) 定义 基于 用 户 的 协同 过 滤 函 数 


create or replace function fn_user_cf(user_idx int) 





cos(@) = 


returns table(r2 int, s float8, col_id int, 
val float8, musicid varchar(10)) as 
$func$ 
select r2, s, col_id, val, musicid 
from 
(select r2,s,col_id,val, 
row_number() over (partition by col_id order by col_id) rn 
from 
(select r2,s,col_id,val 
from 
(select r2,s 
from 
(select r2,s,row_number() over (order by s desc) rn 


from 
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(select tl.row id r1, t2.row id r2, abs(madlib.cosine similarity(vl, v2)) 
s from 
(select row id, row vec vl from svd u where row id = $1) tl, 
(select row id, row vec v2 from svd u) t2 
where tl.row id «» t2.row id) t) t 
where rn «-5 and s < 1) tl, svd data t2 
where tl.r2-t2.row id and t2.val »-3) t 
where col id not in (select col id from svd data where row id = $1)) tl, 
tbl idx music t2 
where tl.rn - 1 and tl.col id - t2.music idx 
order by tl.s desc, tl.val desc limit 5; 
$func$ 
language sql; 


说 明 : 
最 内 层 查 询 调用 madlib.cosine_similarity 函数 返回 指定 用 户 与 其 他 用 户 的 余弦 相似 度 。 


select tl.row id rl, t2.row id r2, abs(madlib.cosine similarity(vl, v2)) s 
from (select row id, row vec vl from svd u where row id = $1) tl, 
(select row id, row vec v2 from svd u) t2 
where tl.row id «» t2.row id 


外 面 一 层 查 询 按 相 似 度 倒序 取得 排名 。 
select r2,s,row number() over (order by s desc) rn from … 
外 面 一 层 查询 取得 最 相近 的 5 个 用 户 , 同时 排除 相似 度 为 1 的 用 户 , 因为 相似 度 为 1 说 明 
两 个 用 户 的 作品 评分 一 模 一 样 ， 而 推荐 的 应 该 是 用 户 没有 打 过 分 的 作品 。 

select r2,s from … where rn <=5 and s < 1 

外 面 一 层 查询 取得 相似 用 户 打分 在 3 及 其 以 上 的 作品 索引 ID. 

select r2,s,col id,val from … where tl.r2-t2.row id and t2.val >=3 
外 面 一 层 查询 取得 作品 索引 ID 的 排名 ， 目 的 是 去 重 ， 避 免 相同 的 作品 推荐 多 次 ， 并 且 过 
滤 掉 被 推荐 用 户 已 经 打 过 分 的 作品 。 


select r2,s,col_id,val, 
row_number() over (partition by col_id order by col_id) rn 
from ** where col id not in (select col id from svd_data where row id = $1) 


最 外 层 查询 关联 作品 索引 表 取 得 作品 业务 主键 ， 并 按 相 似 度 和 打分 推荐 前 5 个 作品 。 











select r2, s, col_id, val, musicid ... 
where tl.rn = 1 and tl.col id = t2.music idx 
order by tl.s desc, tl.val desc limit 5; 
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(3) 定义 接收 用 户 业 务 ID 的 函数 


create or replace function fn user recommendation(i userid varchar(10)) 


returns 


table (r2 int, s float8, col id int, val float8, musicid varchar(10)) as  $func$ 


declare 
v rec record; 
v user idx int:-0; 


begin 


Select user idx into v user idx from tbl idx user where userid-i userid; 


for v rec in (select * from fn user cf(v user idx)) loop 


r2:-v rec.r2; 

S:-V reC.S; 

col id:-v rec.col id; 
val :-v rec.val; 


musicid:-v rec.musicid; 


return next; 


end loop; 


return; 
end; 
$func$ 
language plpgsql; 


通常 输入 的 用 户 ID 是 业务 系统 的 ID, 而 不 是 索引 下 标 , 因此 定义 


函数 ， 内 部 调用 fn user cf 函数 生成 推荐 。 
(4) 测试 推荐 结果 


dm=# select * from fn user recommendation('ul'); 


r2 s | col id | val | musicid 
mmm vue um me vr ut uer m um pee se VE B PNE S 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 
4 0.0264000585408379 | ail 4 | m3 
4 0.0264000585408379 | rx || 4 | m2 
4 0.0264000585408379 | a4 3 | m4 
9 0.0083739912804568 | vq 4 | m7 
(4 rows) 


dm=# select * from fn user recommendation('u3'); 





r2 s | col id | val | musicid 
-T---—-------------------- 4-------- 4----- 4--------- 
y 0.0765016205578617 | 6 | 5 | m6 
2 0.0749416547815918 | wi 3 | m4 
4 0.0650665106555581 | Z2; qq. A 
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-个 接收 业务 系统 的 ID 


(3 rows) 


dm=# select * from fn user recommendation('u9'); 


ta? || s | col id | val | musicid 
----+-------------------- 4-------- 4----- 4--------- 
6 | 0.109930597010835 | jl 2 (tants 
2 | 0.0749416547815918 | 4 | 3 [m4 
4 | 0.0650665106555581 | 2 eee E 
(3 rows) 


可 以 看 到 ， 因 为 u3 和 u9 的 评分 完全 相同 ， 相 似 度 为 1， 所 以 为 他 们 生成 的 推荐 也 完全 相同 。 
8. 基于 作品 的 协同 过 滤 算法 ltemCF 生成 推荐 
所 谓 ItemCF 算法 ， 简 单 说 就 是 依据 作品 的 相似 程度 形成 推荐 。 

(1) 定义 基于 物品 的 协同 过 滤 函 数 


create or replace function fn item cf(user idx int) 
returns table(r2 int, s float8, musicid varchar(10)) as 
$func$ 
select tl.r2, tl.s, t2.musicid 
from 
(select tl.r2,tl.s,row number() over (partition by r2 order by s desc) rn 


from 

(select tl.*, row number() over (partition by rl order by s desc) rn 
from 

(select tl.row id r1,t2.row id r2,abs(madlib.cosine similarity(vl, v2)) s 
from 


(select row id, row vec vl 
from svd v 
where row id in (select col id from svd data where row id-$1)) tl, 
(select row id, row vec v2 
from svd v 
where row id not in (select col id from svd data where row id-$1)) t2 
where tl.row id <> t2.row id) tl) t1 
where rn <=3) tl, tbl idx music t2 
where rn = 1 and tl.r2 = t2.music idx 
order by s desc; 
$func$ 
language sql; 


说 明 : 

最 内 层 查询 调用 madlib.cosine_similarity 函数 返回 指定 用 户 打 过 分 的 作品 与 没 打 过 分 的 作 
品 的 相似 度 。 

select tl.row id rl, t2.row id r2, abs(madlib.cosine similarity(vl, v2)) s 


from (select row id, row vec vl 
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from svd_v 


where row id in (select col id from svd data where row id-$1)) tl, 
(select row id, row vec v2 


from svd v 


where row id not in (select col id from svd data where row id-$1)) t2 
where tl.row id <> t2.row id 


外 面 一 层 查询 按 相 似 度 倒 序 取得 排名 。 


select tl.*, row number() over (partition by rl order by s desc) rn ~ 


外 面 一 层 查询 取得 与 每 个 打分 作品 相似 度 排 前 三 的 作品 ， 并 以 作品 索引 ID 分 
度 倒序 取得 排名 ， 目 的 是 去 重 ， 避 免 相 同 的 作品 推荐 多 次 。 





区 ， 按 相似 
select tl.r2,tl.s,row number() over (partition 
from … where rn <=3 


by r2 order by s desc) rn 
最 外 层 查询 关联 作品 索引 表 取 得 作品 业务 主键 并 推荐 。 
select tl.r2, tl.s, 


t2.musicid 
from ... where rn 


1 and t1.r2 
(2) 定义 接收 用 户 业 务 ID 的 函数 


t2.music idx order by s desc 


create or replace function fn_item_recommendation(i_userid varchar (10)) 
returns table (r2 int, s float8, musicid varchar(10)) as 

$func$ 

declare 


v_rec record; 


v_user_idx int:=0; 
begin 


select user idx into v user idx from tbl idx user where userid-i userid; 
for v rec in (select * from fn item cf(v user idx)) loop 
r2;-v rec.r2; 


S:-v rec.s; 


musicid:-v rec.musicid; 


return next; 
end loop; 


return; 


end; 


$func$ 


language plpgsql; 


通常 输入 的 用 户 ID 是 业务 系统 的 ID, 而 不 是 索引 下 标 , 因此 定义 一 个 接收 业务 系统 的 ID 
函数 ， 内 部 调用 fn item cf 函数 生成 推荐 。 
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G) 测试 推荐 结果 








dm=# select * from fn item recommendation('ul'); 
r2 s | musicid 
ee ee ee Se odest 

5 0.25278871122462 | m5 

2 0.16791457694689 | m2 

3 0.120167300602806 | m3 
(3 rows) 
dm=# select * from fn item recommendation ('u3'); 
r2 s | musicid 
Zisc$-esseuessuezscecssi. a 

2 0.444777562452136 | m2 

a 0.25278871122462 | ml 

6 0.242084453944156 | m6 
(3 rows) 

=# select * from fn item recommendation ('u9'); 
r2 s | musicid 

2 0.444777562452136 | m2 

1 0.25278871122462 | ml 

6 0.242084453944156 | m6 
(3 rows) 


可 以 看 到 ， 因 为 u3 和 u9 的 评分 作品 完全 相同 ， 相 似 度 为 1， 所 以 按 作 品 相似 度 为 他 们 生 
成 的 推荐 也 完全 相同 。 
9. 为 新 用 户 寻 找 相似 用 户 
假设 一 个 新 用 户 u10 的 评分 向 量 为 '{0.4,5,3,0,0,-2,0}"， 要 利用 已 有 的 奇异 值 和 矩阵 找 出 该 用 
户 的 相似 用 户 。 
(1) 添加 业务 数据 。 


insert into source data 
values ('u10', 'm2', 4), ('u10', 'm3', 5), ('u10', 


insert into tbl idx user (userid) 


select distinct userid 


from source data 


where 


order by userid; 


Ym4*, 3) 7 0010), tsi) 12). 


userid not in (select userid from tbl idx user) 
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(2) 确认 从 评分 向 量 计算 svd_u 向 量 的 公式 。 
u10[1:8] x svd v[8:7] x svd s[7:7]^-1 


(3) 生成 ul0 用 户 的 向 量 表 和 数据 。 


drop table if exists mat u10; 
create table mat ul0(row id int, row vec float8[]); 
insert into mat_ul0 values (1, '(0,4,5,3,0,0,-2,0]'); 


(4) 根据 计算 公式 ， 先 将 前 两 个 矩阵 相 乘 。 


drop table if exists mat r 10; 
select madlib.matrix mult('mat ul0', 'row-row id, val-row vec', 
'svd v', 'row-row id, val-row vec', 
'mat r 10'); 
C50 RRA, KEARE PETERE BE 
drop table if exists svd_s_10; 


create table svd s 10 as 


select row id, col id,1/value val from svd s where value is not null; 
(6) 根据 公式 ， 将 (4) 、 (5) 两 步 的 结果 矩阵 相 乘 。 
注意 (4) 的 结果 mat r 10 是 一 个 稠密 和 矩阵， (5) 的 结果 svd_s_10 是 一 个 稀 朴 矩阵 。 
drop table if exists matrix r 10; 
select madlib.matrix mult('mat r 10', 'row-row id, val-row vec', 
'svd s 10', 'row-row id, col-col id, val-val', 
'matrix r 10!'); 


(7) 查询 与 ul0 相似 的 用 户 。 


dm=# select tl.row id rl, t2.row id r2, abs(madlib.cosine_similarity(v1, v2)) 


sdm-# from (select row id, row vec vl from matrix r 10 where row id= 1) tl, dm-# 


(select row id, row vec v2 from svd u) t2 
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dm-# order by s desc; 





rl sea i s 
EE a EE 
i 4 | 0.989758250631095 
ul 6 | 0.445518586781384 
m 7 | 0.253951334956948 
al 2 | 0.117185108937363 
ab 9 | 0.0276611552976061 
1 3 | 0.0276611552976061 
i 5 | 0.00988637492741561 
ib 8 | 0.00673214822878797 
1 1 | 0.00262000760517713 


(9 rows) 
可 以 看 到 ，u10 与 u4 的 相似 度 高 达 99%， 从 原始 的 评分 向 量 可 以 得 到 验证 : 


u4: '{0,4,4,3,0,0,-2,0}' 
u10: '{0,4,5,3,0,0,-2,0}' 


(8) 将 结果 向 量 插入 svd_u 矩阵 。 


insert into svd_u 
select user idx, row vec from matrix r 10, tbl idx user where userid = 'u10'; 


20.4 ne 


奇异 值 分 解 将 原始 矩阵 逼近 为 三 个 矩阵 的 乘积 , 是 一 种 降 维 处 理 方法 , 常 被 应 用 于 推荐 系 
5i. MADIib 提供 了 三 个 奇异 值 分 解 模 型 函数 : 稠密 矩阵 的 SVD eR. ANERE SVD 函数 、 
PEE AH SCL SVD 函数 。 我们 使 用 第 三 个 函数 , 演示 了 一 个 典型 推荐 系统 的 实现 过 程 ， 
对 比 了 不 同 k 值 对 分 解 准确 度 的 影响 ， 并 展现 了 userCF 和 itemCF 两 种 协同 过 滤 算 法 。 
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数据 挖掘 中 经 常会 遇 到 多 个 变量 的 问题 , 而 且 在 多 数 情况 下 , 多 个 变量 之 间 常 常 存在 一 定 

的 相关 性 。 例 如 ， 网 站 的 “浏览 量 ” 和 “访客 数 ”往往 具有 较 强 的 相关 关系 ， 而 电 商 应 用 中 的 
“下 单数 ”和 “成 交 数 ”也 具有 较 强 的 相关 关系 。 这 里 的 相关 关系 可 以 直观 理解 为 当 浏 览 量 较 
高 (或 较 低 ) 时 ， 应 该 很 大 程度 上 认为 访客 数 也 较 高 (或 较 低 )。 在 这 个 简单 的 例子 中 只 有 两 
个 变量 ， 当 变量 个 数 较 多 且 变 量 之 间 存 在 复杂 关系 时 , 会 显著 增加 分 析 问 题 的 复杂 性 。 主 成 分 
分 析 方 法 可 以 将 多 个 变量 综合 为 少数 几 个 代表 性 变量 ,使 这 些 变 量 既 能 够 代表 原始 变量 的 绝 大 
多 数 信息 又 互 不 相关 ， 这 种 方法 有 助 于 对 问题 的 分 析 和 建 模 。 

MADIib 提供 了 两 组 主 成 分 分 析 函 数 : 训练 函数 与 投影 函数 。 训练 函 数 以 原始 数据 为 输入 ， 
输出 主 成 分 。 投 影 函数 将 原始 数据 投影 到 主 成 分 上 ,实现 线 性 无 关 降 维 ， 输 出 降 维 后 的 数据 矩 
阵 。 本 章 介绍 MADIib 主 成 分 分 析 模 型 对 应 的 函数 ， 并 以 一 个 示例 说 明 如 何 利用 这 些 函 数 解决 
数据 的 去 相关 性 和 降 维 问题 。 


271.1 主 成 分 分 析 简介 


1. PCA 的 基本 思想 


主 成 分 分 析 采 取 一 种 数学 降 维 的 方法 ,其 所 要 做 的 就 是 设法 将 原来 众多 具有 一 定 相关 性 的 
变量 , 重新 组 合 为 一 组 新 的 相互 无 关 的 综合 变量 来 代替 原来 的 变量 。 通 常 ， 数 学 上 的 处 理 方法 
就 是 将 原来 的 变量 做 线性 组 合 ， 作 为 新 的 综合 变量 ， 转 换 后 的 变量 叫 主 成 分 。 变 换 的 定义 方法 
是 用 F1〈 选 取 的 第 一 个 线性 组 合 ， 即 第 一 个 综合 指标 ) 的 方差 来 表达 ， 即 Var(F1) 越 大 ， 表 示 
Fl 包含 的 信息 越 多。 因此 在 所 有 的 线性 组 合 中 选取 的 FI 应 该 是 方差 最 大 的 ， 故 称 Fl 为 第 一 
主 成 分 。 如 果 第 一 主 成 分 不 足以 代表 原来 P 个 指标 的 信息 ， 再 考虑 选取 F2 即 选 第 二 个 线性 组 
合 ,为 了 有 效 地 反映 原始 信息 ，F1 已 有 的 信息 不 需要 再 出 现在 F2 中 , 用 数学 语言 表达 就 是 要 
求 Cov(F1, F2)=0, PK F2 为 第 二 主 成 分 ， 以 此 类 推 ， 可 以 构造 出 第 三 、 第 四 、…… 、 第 P 个 主 
成 分 。Cov 表示 统计 学 中 的 协 方差 。 


2. PCA 的 计算 步骤 
这 里 关于 PCA 方 法 的 理论 推导 不 再 更 述 ,我 们 将 重点 放 在 如 何 应 用 PCA 解决 实际 问题 上 。 


下 面 先 简单 介绍 一 下 PCA 的 典型 步 又。 


CD 对 原始 数据 进行 标准 化 处 理 。 
假设 样本 观测 数据 矩阵 为 : 


Xni Xn2 |“ Xnp 
那么 可 以 按照 如 下 方法 对 原始 数据 进行 标准 化 处 理 : 
du hn i12 nj = 12 
U= T 2, ao nj = 1,2, p 
= SA 
JEF, xj = 二 Za:xi， var(x;) = Xy -xj) G =1,2,...,p) 
(2) VESEREASAIDS A BOE o 
HHE, ABE tta a 0S HE X s. UAE cb in BAG BOA : 


ni "n2 '" Np 
Tpi 7p2 '" 7pp 
covGix;) DEST ri XD (xkj—x)) 





其 中 ， "ii var var) 一 3 - LL 
LE eniz)? [EEE 
(3) WIKER 的 特征 值 Qa Aas ses Ap) 和 相应 的 特征 向 量 : 
a; = (qiy aiz =s Aip) i = 1,2, P 


(4) 选择 重要 的 主 成 分 ， 并 写 出 主 成 分 表达 式 。 
主 成 分 分 析 可 以 得 到 jp 个 主 成 分 , 但 是 ,由 于 各 个 主 成 分 的 方差 是 递减 的 , 包含 的 信息 量 





也 是 递减 的 ,所 以 实际 分 析 时 ， 一 般 不 是 选取 疡 个 主 成 分 ， 而 是 根据 各 个 主 成 分 累计 贡献 率 的 
大 小 选取 前 个 主 成 分 , 这 里 的 贡献 率 是 指 某 个 主 成 分 的 方差 占 全 部 方差 的 比重 ， 实 际 也 就 是 
某 个 特征 值 占 全 部 特征 值 合计 的 比重 ， 即 : 


A; 


we = 


xh 
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贡献 率 越 大 ， 说 明 该 主 成 分 所 包含 的 原始 变量 的 信息 越 强 。 主 成 分 个 数 大 的 选取 ,主要 根 
di 3A I ERE UO DOE, MRR RRR] 85% 以 上 ， 这 样 才能 保证 综合 变 
量 能 包括 原始 变量 的 绝 大 多 数 信息 。 

另外 , 在 实际 应 用 中 , 选择 了 重要 的 主 成 分 后 ， 还 要 注意 主 成 分 实际 含义 的 解释 。 主 成 分 
分 析 中 一 个 很 关键 的 问题 是 如 何 给 主 成 分 赋予 新 的 意义 , 给 出 合理 的 解释 。 一 般 而 言 ,这 个 解 
释 是 根据 主 成 分 表达 式 的 系数 结合 定性 分 析 来 进行 的 。 主 成 分 是 原来 变量 的 线性 组 合 , 在 这 个 
线性 组 合 中 各 变量 的 系数 有 大 有 小 ， HEA G, 有 的 大 小 相当 ， 因 而 不 能 简单 地 认为 这 个 主 成 
分 是 某 个 原 变量 的 属性 的 作用 。 线 性 组 合 中 各 变量 系数 的 绝对 值 大 者 表明 该 主 成 分 主要 综合 了 
绝对 值 大 的 变量 , 有 几 个 变量 系数 大 小 相当 时 , 应 认为 这 一 主 成 分 是 这 几 个 变量 的 总 和 。 这 几 
个 变量 综合 在 一 起 应 赋予 怎样 的 实际 意义 ,就 要 结合 具体 的 实际 问题 和 专业 ,给 出 恰当 的 解释 ， 
进而 才能 达到 深刻 分 析 的 目的 。 

(5) 计算 主 成 分 得 分 。 

根据 标准 化 的 原始 数据 ,按照 各 个 样品 , 分 别 代入 主 成 分 表达 式 , 就 可 以 得 到 各 主 成 分 下 
的 各 个 样品 的 新 数据 ， 即 为 主 成 分 得 分 。 具 体形 式 如 下 : 





Fa Fuoco Fx 
Fa Pee ov Pu 
Fri Pa … Fak 





其 中 ，Fij = Qi1Xil 十 Qj2Xiz2 + + QjpXip (i = 1,2,...,n; j = 1,2,..,k). 


(6) 依据 主 成 分 得 分 数据 ， 进 一 步 对 问题 进行 后 续 的 分 析 和 建 模 。 
后 续 分 析 和 建 模 常 见 的 形式 有 主 成 分 回归 、 变 量子 集合 的 选择 、 综 合 评价 等 。 








2 1.2 MADIib 的 PCA 相关 函数 


1. 训练 函数 


MADIib 中 PCA 的 实现 是 使 用 一 种 分 布 式 的 SVD (奇异 值 分 解 ) 找 出 主 成 分 ， 而 不 是 直 
接 计算 方差 矩阵 的 特征 向 量 。 设 x 为 与 原始 数据 矩阵 ， 为 x 的 列 平 均值 向 量 。PCA 首先 将 原 
始 和 矩阵 标准 化 为 矩阵 : 


中 = XX 一 ExT 
Hope 是 所 有 的 行 向 量 。 然 后 Madlib PCA 函数 对 和 矩阵 进行 SVD 分 解 : 
8&-Uy 7 


HPE EMME, PMID VND RE, ERDE V 的 行 。 最 后 使 用 Bessels 
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correction 用 N-1 代替 N 计算 协 方差 。 











这 种 实现 的 前 提 是 假设 用 户 只 使 用 具有 非 零 特征 值 的 主 成 分 ， 因 为 SVD 计算 用 的 是 
Lanczos 算法 ， 它 并 不 保证 含有 零 特 征 值 的 奇异 向 量 的 正确 性 。 
(1) 语法 


稠密 矩阵 和 稀 下 矩 阵 的 训练 函数 有 所 不 同 。 稠 密 和 矩阵 训练 函数 为 : 


pca train (source table, 
out table, 
row id, 
components param, 
grouping cols, 
lanczos iter, 
use correlation, 
result summary table) 


Wick BE VIZ ER BON + 


pca sparse train (source table, 


out table, 

row id, 

col id, -- 只 针对 稀疏 矩阵 
val_id, -- FDR aE 
row_dim, -- FR it PE 
col_dim, -- 只 针对 稀疏 矩阵 
components param, 


grouping cols, 

lanczos iter, 

use correlation, 
result summary table ) 


(2) BR 


source table: TEXT 类 型 ，PCA 训练 数据 的 输入 表 名 。 输 入 的 数据 矩阵 应 该 具有 N 17 M 
列 ，N 为 数据 点 的 数量 ，M 为 每 个 数据 点 的 特征 数 。 稠 密 输入 表 可 以 使 用 两 种 标准 的 MADIib 


{TABLE|VIEW} source table ( 
row id INTEGER, 
row vec FLOAT8[], 
M 


或 者 : 


{TABLE|VIEW} source table ( 
row_id INTEGER, 
coll FLOATS, 
col2 FLOATS, 
M) 


注意 row_id 作为 入 参 是 输入 矩阵 的 行 标识 ， 必 须 是 从 1 开始 且 连 续 的 整数 。PCA fi fibi 
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和 矩阵 输入 表 的 格式 如 下 ， 其 中 row id 和 col id 列 指示 矩阵 下 标 ， 是 正 整数 ，val_id 列 定义 非 0 
的 矩阵 元 素 值 。 


{TABLE|VIEW} source table ( 


row id INTEGER, 
col id INTEGER, 
val id FLOAT8, 
e) 
out table: TEXT 类 型 ， 输 出 表 的 名 称 。 有 两 种 可 能 的 输出 表 : 主 输出 表 和 均值 输出 表 。 
主 输出 表 Cout table) 包含 特征 值 最 高 的 k 个 主 成 分 的 特征 向 量 ，k 值 直接 由 用 户 参数 指 
定 ， 或 者 根据 方差 的 比例 计算 得 出 。 主 输出 表 包 含 以 下 四 列 : 
@ row id: 特征 值 倒序 排名 。 
© principal components: 包含 主 成 分 元 素 的 向 量 ( 特征 向 量 ) 。 
€ std dev: 每 个 主 成 分 的 标准 差 。 
€ proportion: 每 个 主 成 分 标准 差 所 占 的 比例 。 


均值 输出 表 (out_table_mean) 包含 列 的 均值 ， 只 有 一 列 : 
© column mean: 包含 输入 矩阵 的 列 的 均值 。 


row id: TEXT 类 型 ， 输 入 表 中 表示 行 ID 的 列 名 。 该 列 应 该 为 整 型 ， 值 域 为 1-N， 对 于 
稠密 矩阵 格式 ， 该 列 应 该 包含 从 1~N 的 连续 整数 。 

col id: TEXT 类 型 ， 稀 朴 矩 阵 中 表示 列 ID 的 列 名 。 列 应 为 整 型 ， 值 域 为 1 ~ M。 该 参 
BUA HAY Pitti BER 

val id: TEXT RAY, Fit eo AERE CIA © BRR H FAAEE o 

row dim: INTEGER 298, ‘Bf Bx TC, HEI AE EB ey B EI PT RUIT 
ITR BBR AT Mili KEM 

col dim: INTEGER 2224, SEB (#1 Ba FUA, JR AE XR HERPES Ba XB EIN TT 
Jk. YBRAH TAERE. row dim 和 col. dim KPR E np DA Afni FE HET, a AED T 
向 后 兼容 而 存在 ， 将 来 会 被 移 除 。 这 两 个 值 大 于 矩阵 的 实际 值 时 会 补 零 。 

components_param: INTEGER 或 FLOAT 类 型 ， 该 参数 控制 如 何 从 输入 数据 确定 主 成 分 
的 数量 。 如 果 为 INTEGER 类 型 ， 代 表 需 要 计算 的 主 成 分 的 个 数 。 如 果 为 FLOAT 类 型 ， 算 法 
将 返回 足够 的 主 成 分 向 量 ， 使 得 累积 特征 值 大 于 此 参数 〈 标 准 差 比例 ) 。components_param 
的 值 域 为 正 整数 或 (0.0,1.0]。 这 里 要 注意 整 型 和 浮 点 数 的 区 别 ， 如 果 components. param 指定 为 
1， 则 返回 一 个 主 成 分 ， 而 指定 为 1.0 时 ， 返 回 所 有 的 主 成 分 ， 因 为 此 时 方差 比例 为 100%。 还 
要 注意 一 点 ， 主 成 分 数量 是 全 局 的 。 在 分 组 时 〈 由 grouping cols 参数 指定 ) 可 能 选择 标准 差 
比例 更 好 ， 因 为 这 可 以 使 不 同 分 组 具有 不 同 的 主 成 分 数量 。 

grouping_cols〈 可 选 ) : TEXT XÆ, BUM NULL. HEE SAMMI, HAE 
数 的 所 有 列 分 组 ， 对 每 个 分 组 独立 计算 PCA。 简 密 矩 阵 的 各 分 组 大 小 可 能 不 同 ， 而 稀 玻 矩阵 
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WREAK AE, BS REE row. dim 和 col. dim 是 跨 所 有 组 的 全 局 参数 。 

lanczos iter CHE) : INTEGER 类 型 ， 默 认 值 为 k+40 与 最 小 矩阵 维度 的 较 小 者 ，k 是 主 
成 分 数量 。 此 参数 定义 计算 SVD 时 的 Lanczos 和 迭代 次 数 ， 和 迭代 次 数 越 大 精度 越 高 ， 同 时 计算 
越 花 时 间 。 和 迭代 次 数 不 能 小 于 k 值 ， 也 不 能 大 于 最 小 矩阵 维度 。 如 果 此 参数 设置 为 0， 则 使 用 
默认 值 。 如 果 lanczos_iter 和 components param 参数 同时 设置 ， 在 确定 主 成 分 数量 时 ， 优 先 考 
JE lanczos_iter。 

use_correlation〔 可 选 ) : BOOLEAN 类 型 ， 默 认 值 为 FALSE。 指 定 在 计算 主 成 分 时 ， 是 
和 否 使 用 相关 矩阵 代替 协 方差 矩阵 。 当 前 该 参数 仅 用 于 向 后 兼容 ， 因 此 必须 设置 为 false。 

result summary table CHJ3E) : TEXT 类 型 , 默认 值 为 NULL。 指定 概要 表 的 名 称 , NULL 
时 不 生成 概要 表 。 概 要 表 具 有 下 面 的 列 。 


rows used: INTEGER 类 型 ， 输 入 数据 点 的 个 数 ( 行 数 ) 。 
exec time (ms): FLOATS8 类 型 ， 函 数 执行 的 毫秒 数 。 

iter: INTEGER 类 型 ，SVD 计算 时 的 迭代 次 数 。 

recon error: FLOAT8 类 型 ，SVD 近似 值 的 绝对 误差 。 
relative recon error: FLOATS 类 型 ，SVD 近似 值 的 相对 误差 。 
use correlation: BOOLEAN 类 型 ， 表 示 使 用 的 是 相关 矩阵 。 
(3) 联机 帮助 

可 以 执行 下 面 的 查询 获得 PCA 培训 函数 的 联机 帮助 。 


select madlib.pca_train('usage'); 





select madlib.pca_sparse_train('usage'); 
2. 投影 函数 
给 定 包含 主 成 分 P 的 输入 数据 矩阵 了 ,对 应 的 降 维 后 的 低 维 度 矩 阵 为 ， 其 计算 公式 为 : 
$ =X —é@at™ 
X' = XP 
其 中 多 是 的 列 平均 值 ， 人 E 是 所 有 的 行 向 量 。 这 步 计算 的 结果 近似 于 原始 数据 ， 保 留 了 绝 
大 部 分 的 原始 信息 。 
残余 表 用 于 估计 降 维 后 的 矩阵 与 原始 输入 数据 的 近似 程度 ， 其 计算 公式 为 : 
R= 号 一 X'PT 


如 果 残 余 矩 阵 的 元 素 接近 于 零 ， 则 表示 降 维 后 的 信息 丢失 很 少 , 基本 相当 于 原始 数据 。 残 
差 范 数 表示 为 : 





r = |RIle 

XB ||- [|p AE Frobenius 范 数 。 相 对 残 差 范 数 的 计算 公式 为 : 
MEUS 
Xlle 
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(OD 语法 
T e AE ME AE TR SERE AAC ANA). BY RAO: 


madlib.pca project (source table, 
pc table, 
out table, 
row id, 
residual table, 
result summary table) 


Fiat EE BERE RRO : 

madlib.pca sparse project (source table, 
pc table, 
out table, 
row id, 
col id, -- 只 针对 稀疏 矩阵 
val id, -- 只 针对 稀疏 矩阵 
row_dim, -- Feat ni 
col dim, -- FR aE 


residual table, 
result summary table) 
(2) BR 
source table: TEXT 类 型 ， 等 同 于 PCA 训练 函数 ， 指 定 源 表 名 称 。 输 入 数据 矩阵 应 该 有 
N 行 M 列 ，N 为 数据 点 个 数 ，M 为 每 个 数据 点 的 特征 数 。 与 PCA 训练 函数 类 似 ，pca_project 
函数 的 输入 表格 式 ， 应 该 为 MADlib 两 种 标准 稠密 矩阵 格式 之 一 ， 而 pca_sparse_project 函数 
的 输入 表 应 该 为 MADlib 的 标准 稀疏 矩阵 格式 。 


pc table: TEXT 类 型 ， 主 成 分 表 名 ， 通 常 使 用 PCA 训练 函数 的 主 输出 表 。 
out table: TEXT 类 型 ， 输 入 数据 降 维 后 的 输出 表 名 称 。out_table 是 一 个 投影 到 主 成 分 上 
的 稠密 矩阵 ， 具 有 以 下 几 列 : 
€ row id: $i +h 4PR 4947 ID. 
col id: 同 PCA 训练 函数 。 
val_id: 同 PCA 训练 函数 。 
row_dim: 同 PCA 训练 函数 。 
col dim: F) PCA 训练 函数 。 


residual table (可 选 ) : TEXT 类 型 ， 默 认 值 为 NULL， 残 余 表 的 名 称 。residual table X 
现 为 一 个 稠密 和 矩阵， 具有 以 下 两 列 : 


€ row id: 输出 矩阵 的 行 ID。 
€ row vec: 和 包含 残余 矩阵 行 元 素 的 向 量 。 


result summary table (可 选 ) : TEXT 类 型 ， 可 选 值 为 NULL， 结 果 概 述 表 的 名 称 。 
result summary table 中 含有 PCA 投影 函数 的 性 能 信息 ， 具 有 以 下 三 列 : 
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€ exec time: 函数 执行 所 用 的 时 间 CET). 
€ residual norm: 绝对 误差 。 
€ relative residual norm: 相对 误差 。 
(3) 联机 帮助 
可 以 执行 下 面 的 查询 获得 PCA 投影 函数 的 联机 帮助 。 
select madlib.pca project('usage'); 


select madlib.pca sparse project('usage'); 


PCA 应 用 示例 


我 们 用 一 个 企业 综合 实力 排序 的 例子 来 说 明 MADIib PCA 的 用 法 。 为 了 系统 地 分 析 某 IT 
类 企业 的 经 济 效益 ， 选 择 了 8 个 不 同 的 利润 指标 ， 对 15 家 企业 进行 了 调研 ， 并 得 到 如 表 21-1 
所 示 的 数据 。 现 在 需要 根据 这 些 数 据 对 15 家 企业 进行 综合 实例 排序 。 


表 21-1 企业 综合 实例 评价 表 



































企业 编号 | 净利 润 率 | 固定 资产 | 总 产值 利 | 销售 收入 | 产品 成 本 | 物耗 利润 | 人 均 利润 | 流动 资产 

(%) 利润 率 | 润 率 (%)| 利 润 率 | 利润 率 | 率 (%) |( 和 于 元 /| 利润 率 
(96) (96) (96) 人 ) (96) 

1 40.4 24.7 72 8.7 2.442 20 

2 25 12.7 11.2 20.2 3.542 9.1 

3 13.2 33 39 55 0.578 36 

4 223 6.7 5.6 74 0.176 73 

5 34.3 118 74 89 1.726 27.5 

6 35.6 12.5 164 29.3 3.017 26.6 

b 2 7.8 99 17.6 0.847 10.6 

8 484 134 10.9 13.9 1.772 17.8 

9 40.6 19.1 19.8 39.6 2.449 35.8 

10 24.8 8 98 16.2 0.789 13.7 

11 12.5 9.7 42 6.5 0.874 3.9 

12 18 0.6 07 Ll 0.056 1 

13 32.3 13.9 94 83 9.8 133 2.126 17.1 

14 38.5 9.1 113 9.5 122 164 1.327 11.6 

15 26.2 10.1 5.6 15.6 73 30.1 0.126 259 
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由 于 本 问题 中 涉及 8 个 指标 , 这些 指标 间 的 关联 关系 并 不 明确 , 而 且 各 指标 数值 的 数量 级 


也 有 差异 , 为 此 这 里 首先 借助 PCA 方法 对 指标 体系 进行 降 维 处 理 , 然后 根据 PCA 打分 结果 实 
现 对 企业 的 综合 实力 排序 。 
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1. 创建 原始 稠密 矩阵 表 并 添加 数据 


drop table if exists mat; 

create table mat (id integer, row vec double precision[]); 
insert into mat values 

(1, '140.4, 24.7, 7.2, 6.1, 8.3, 8.7, 2.442, 20}'), 
(an OT Mee alee dale TAO pee Oly So 542289]: 9) 
Be Md 2 2.37 BQ 94 7 372044 001515 1001757787283 5] Y yr 
入 Om chin 470: LIG em TE 3) 
I Er dl Br Bm eeu? 6723.5 M) 
(Ope "i356; 12.5 516,47 167; 22:8; 229 3,73017,9266] ) y 
Ch YE 225 7128,17 929, 10:27 T2567 Li, 0847, LUGE 
(8, "{48.4, 13.4, 10.9, 9.9, 10.9, 13.9, 1.772, 17.8]"'), 
(9, '140.6, 19.1, 19.8, 19, 29.7, 39.6, 2.449, 35.8}"), 
(10, '(24.8, 8, 928, 8.9, 11.9, 16.2, 0.789, 13:71!) 
(ali, THE. DAG. Vee CIE Aen 996952807 87429939) 
(lp Ut ag Waa, Os 990.729.0.9 299] 1750/0557 9 :5)2)]7 
aar A3237 13nn 9r Ar 83r 98 133r 2126r algal hy. 
(1476138957059, 1], 113r 9-5, 12:2, 16.4, 9132791]: on) 
i Jed ee O tela ASG A 


2. 调用 PCA 训练 函数 生成 特征 向 量 矩 阵 


drop table if exists result table, result table mean; 


select madlib.pca train('mat', -- 原始 表 
'result table', -- 输出 表 
Mid -- 源 表 ID 列 
3 -- 主 成 分 个 数 ); 
3. 查看 输出 表 
dm=# select row id id, std, prop, 
dm-# lpad(pl,6,' ')II','II1pad(p2,6,' ')II','ll 
dm-# lpad(p3,6,' ')II','II1pad(p4,6,' ')II','ll 
dm-# lpad(p5,6,' ')II','II1pad(p6,6,' ')II','ll 
dm-# lpad(p7,6,' ')||','||lpad(p8,6,' ') principal components 
dm-# from (select row id, 
dm (# round(p[1]::numeric,3) pl, 
dm (# round(p[2]::numeric,3) p2, 
dm (4 round(p[3]::numeric,3) p3, 
dm (# round(p[4]::numeric,3) p4, 
dm (4 round(p[5]::numeric,3) p5, 


dm (# round (p[6]::numeric,3) p6, 


dm (# round (p[7]::numeric,3) p7, 

dm (# round (p[8]::numeric,3) p8, 

dm (4 round(std dev::numeric,3) std, 

dm (# round(proportion::numeric,3) prop 

dm (# from (select row id, principal components p, std dev, proportion 
dm (# from result table) t) t 

dm-# order by row id; 

id | std | prop I principal_components 

----4-------- 4------- 4-------------------------------------------------- 


1 | 19.487 | 0.744 | -0.550,-0.221,-0.222,-0.234,-0.324,-0.460,-0.035,-0.477 

2 | 9.067 | 0.161 | -0.679,-0.258, 0.092, 0.224, 0.255, 0.590,-0.019, 0.009 

3| 5.063 | 0.050 | 0.293,-0.117, 0.358, 0.036, 0.371, 0.070, 0.056,-0.791 
(3 rows) 


可 以 看 到 ， 主 成 分 数量 为 3 时 ， 累 积 标准 差 比例 为 95.5， 即 反映 了 95.5% 的 原始 信息 ， 而 
维度 已 经 从 8 个 降低 为 3 个 。 


4. 调用 PCA 投影 函数 生成 降 维 后 的 数据 表 


drop table if exists residual table, result summary table, out table; 
select madlib.pca project( 'mat', 

'result table', 

'out table', 

Edu 

'residual table', 

'result summary table'); 


5. 查看 投影 函数 输出 表 


dm=# select * from out_table order by row_id; 


row_id | row_vec 


| {7.08021173666004,-17. 6113408380368, 3.62504928877282} 

| {-0.377499074086429, 5.25083911315586, -6.06667264391957} 
| {-24.3659516926199,2.69294552046529, -0.854680487274518} 
| {-15.235298685282, -2.7756923532236, -1.48789032627869} 

| {4.64264829479035,-9.80192214158058, 9.97441166441563} 

| {23.6146598612176,7.91277187194796,-1.70125446716029} 

| {-4.25445515316499,6.71053107113929, -3.63489574437095} 
| (12.8547303317577,-15.2151276724561, -4.53202062778529} 
| (40.4531114732088,11.566606363421,0.33351408976578] 

| {-2.39187210257759, 3.48063922820141, -1.53633678788746} 
| {-22.6173674430242, 2.15970955881415, 0.0711392924992467} 
| {-37.2273102800874, 6.50778045364591, 3.06216108712084} 

| {2.45676837959725,-5.55018275237518, 0.715863146049782} 


(0 0-00 QN RH 


FF FF H 
WwW N PHP 口 
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14 | {5.05828673790116,-5.6726215744102,-7.79762716115411} 
15 | {10.3093376158273,10.3450641508798,9.82923967771456} 
(15 rows) 


dm=# select * from result summary table; 


exec time | residual norm | relative residual norm 
局 Pe a A an a en a 
7834.64002609 | 17.8804330669 | 0.0999460602087 
(1 row) 


dm=# select row_id, 






dm-# lpad (round (row_vec[1]::numeric,3),6,' ')|I', "Il 
dm-# lpad (round (row_vec[2]::numeric,3),6,' ')|I', ‘Il 
dm-# lpad (round (row_vec[3]::numeric,3),6,' ")I1", "Il 
dm-# lpad (round (row_vec[4]::numeric,3),6,' ')I|I', ‘Il 
dm-# lpad(round(row vec[5]::numeric,3),6,' ')II', 'II 
dm-# lpad (round (row_vec[6]::numeric,3),6,' ')I|I', 'II 


dm-# lpad(round(row vec[7]::numeric,3),6,' ')II', 'II 
dm-# lpad (round (row_vec[8]::numeric,3),6,' ') row vec 


dm-# from residual table order by row id; 


row id| row vec 
1 | =2.253, 7.276, =0.316, -0,494, 1.005, 0.433, 0.599, -1.523 
2 | -0.863, 3.954, -0.237, 0.678, -1.408, 1.207, 1.860, -1.401 
3 | 0.308, -1.423, -0.116, 0.357, 0.447, -0.586, -0.021, 0.445 
4 | 0.490, -1.375, -0.164, -1.179, 0.250, 0.294, -0.884, 0.337 
5 | 0.153, -3.813, 1.675, -0.442, 1.857, -2.405, 0.477, 2.049 
6 | 70.359, -1.362, 0.957, 0.324, 1.662, -1.994, 0.792, 1.175 
7 | 70.028, 0.002, 0.058, 0.547, 0.078, -0.300, -0.534, 0.012 
8 | 1.811; =-3.726; =1.0357 1.121; =-1.902; 0.993, =0.685, -0,048 
9 | -1.533, 2.229, 1.013, -2.063, 2.932, -1.451, -0.181, 0.700 
10 | 0.169, -1.288, 0.593, -0.389, 0.377, -0.506, -0.602, 0.592 
11 | -1.443, 4.345, 0.176, 0.001, 0.560, -0.011, 0.256, -0.817 
12 | -0.284, -0.759, 0.585, -0.944, 1.492, -1.045, 0.202, 0.850 
13 | 20.471, 0.949, 0.756, -0.019, -0.154, -0.154, 0.516, -0.023 
14 | 1.721, -3.462, -0.954, 0.290, -1.723, 1.225, -0.855, -0.029 
15 || 2.584, -1.547, -2.992, 2.213, -5.472, 4.300, —-0.938, -2.318 

(15 rows) 


out table 为 降 维 后 , 投影 到 主 成 分 的 数据 表 。residual_table 中 的 数据 表示 与 每 个 原始 数据 
项 对 应 的 误差 ， 越 接近 零 说 明 误 差 越 小 。result_summary_table 表 中 包含 函数 执行 概要 信息 。 
6. 按 主 成 分 总 得 分 降序 排列 得 到 综合 实力 排序 


dm=# select row id id, row vec, round(madlib.array sum(row vec)::numeric,4) r 
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dm-# 


id 


一 
9 (40.4531114732088,11.566606363421,-0.333514089765778) 
6 (23.6146598612176,7.91277187194796,1.70125446716029] 
2 {-0.377499074086431,5.25083911315585, 6.06667264391957} 
15 | {10.3093376158273,10.3450641508798, -9.82923967771456} 
14 (5.05828673790117,-5.6726215744102,7.79762716115411) 
7 | {-4.254455153165, 6.71053107113929, 3.63489574437095} 
10 {-2.3918721025776, 3.48063922820141, 1.53633678788746} 
8 (12.8547303317577,-15.2151276724561,4.53202062778528) 
13 (2.45676837959725,-5.55018275237518, -0.715863146049783] 
EH (7.08021173666005, -17.6113408380368, -3.62504928877282] 
(4.64264829479035, -9.80192214158058, -9.97441166441563] 
4 {-15.235298685282, -2.7756923532236,1.48789032627869} 
11 {-22.6173674430242, 2.15970955881415, -0.0711392924992431} 
3 {-24.3659516926199, 2.69294552046528, 0.85468048727452} 
12 {-37.2273102800874, 6.50778045364591, -3.06216108712083} 





(15 rows) 


从 该 结果 可 知 ， 第 9 家 企业 的 综合 实力 最 强 ， 第 12 家 企业 的 综合 实力 最 弱 。row_vec 中 
的 三 列 为 各 个 主 成 分 的 得 分 。 以 上 应 用 示例 比较 简单 ， 真 实 场景 中 ，PCA 方法 还 要 根据 实际 





from out_table 
dm-# order by r desc; 


问题 和 需求 灵活 使 用 。 
^ A 


小 结 


row_vec 


51.6862 
33.22869 
10.9400 
10.8252 
7.1833 
6.0910 
2.6251 
2.1716 
-3.8093 
-14.1562 
Sissel 
21625231 
-20.5288 
-20.8183 
293-5781 


主 成 分 分 析 简 称 PCA， 是 一 种 常用 的 多 变量 分 析 方 法 ， 它 有 两 个 主要 作用 ， 一 是 降 维 ; 
二 是 去 掉 变 量 之 间 的 相关 性 。 主 成 分 分 析 作 为 基础 的 数学 分 析 方 法 ， 其 实际 应 用 十 分 广泛 ， 比 
如 在 人 口 统计 学 、 数 学 建 模 、 数 理 分 析 等 领域 中 均 有 应 用 。MADlib 提供 了 两 组 PCA 函数 ， 
训练 函数 与 投影 函数 。 训 练 函数 以 原始 数据 〈 行 是 数据 点 ， 列 是 特征 ) 作为 输入 ， 输 出 主 成 分 
特征 向 量 , 投影 函数 将 训练 函数 输出 的 主 成 分 作为 入 参 , 输出 逼近 原始 信息 的 降 维 后 的 矩阵 表 。 


我 们 用 MADlib 的 PCA 函数 实现 了 一 个 企业 综合 实力 排序 的 简单 需求 。 
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第 22 章 
< 关联 规则 万 法 > 


数据 仓库 或 数据 挖掘 从 业者 一 定 对 “啤酒 与 尿布 ”的 故事 不 会 陌生 。 这 就 是 一 个 使 用 关联 
岗 则 的 经 典 案例 。 根 据 对 超市 顾客 购买 行为 的 数据 挖掘 发 现 , 男 顾客 经 常 一 起 购买 啤酒 和 尿布 ， 
于 是 经 理 决定 将 啤酒 与 尿布 放置 在 一 起 , 让 顾客 很 容易 在 货架 上 看 到 ， 从 而 使 销售 额 大 幅度 增 
长 。 关 联 规则 挖掘 在 多 个 领域 得 到 了 广泛 应 用 , 包括 互联 网 数据 分 析 、 生 物 工程 、 电 信和 保险 
业 的 错误 校 验 等 。 本 章 将 介绍 关联 规则 方法 、Apriori 算法 和 MADIib 的 Apriori 相关 函数 。 之 
后 我 们 用 一 个 示例 说 明 如 何 使 用 MADlib 的 Apriori 函数 发 现 关联 规则 。 





关联 规则 简介 


关联 规则 挖掘 的 目标 是 发 现 数据 项 集 之 间 的 关联 关系 , 是 数据 挖掘 中 一 个 重要 的 课题 。 关 
联 规 则 最 初 是 针对 购物 篮 分 析 〈Market Basket Analysis) 问题 提出 的 。 假 设 超市 经 理想 更 多 地 
了 解 顾客 的 购物 习惯 , 特别 是 想 知道 , 哪些 商品 顾客 可 能 会 在 一 次 购物 时 同时 购买 ? 为 回答 该 
问题 ， 可 以 对 商店 的 顾客 购买 记录 进行 购物 篮 分 析 。 该 过 程 通过 发 现 顾客 放 入 “购物 篮 ” 中 的 
不 同 商品 之 间 的 关联 , 分 析 顾 客 的 购物 习惯 。 这 种 关联 的 发 现 可 以 帮助 零售 商 了 解 哪些 商品 频 
繁 地 被 顾客 同时 购买 ， 从 而 帮助 他 们 开发 更 好 的 营销 策略 。 

为 了 对 顾客 的 购物 篮 进行 分 析 ，1993 年 ，Agrawal 等 首先 提出 关联 规则 的 概念 ， 同 时 给 出 
了 相应 的 挖掘 算法 AIS， 但 是 性 能 较 差 。1994 年 ， 又 提出 了 著名 的 Apriori 算法 ， 至 今 仍 然 作 
为 关联 规则 挖掘 的 经 典 算 法 被 广泛 讨论 。 

Apriori 数据 挖掘 算法 使 用 事务 数据 。 每 个 事务 事件 都 具有 唯一 标识 , 事务 由 一 组 项 目 (或 
项 集 ) 组 成 。 购 买 行为 被 认为 是 一 个 布尔 值 〈 买 或 不 买 ) ， 这 种 实现 不 考虑 每 个 项 目的 购买 数 
量 。MADlib 的 关联 规则 函数 假设 数据 存储 在 事务 ID 与 项 目 两 列 中 。 具 有 多 个 项 的 事务 将 扩 ' 
展 为 多 行 ， 每 行 一 项 目 ， 如 : 


trans_id| product 
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关联 规则 挖掘 涉及 以 下 一 些 基本 概念 。 
1. 项 目 与 项 集 


数据 库 中 不 可 分 割 的 最 小 单位 信息 ， 称 为 项 目 ， 用 符号 i 表示。 项 目的 集合 称 为 项 集 。 设 
集合 三 {i1,i2,.…ik} 是 项 集 , I 中 项 目的 个 数 为 k， 则 集合 I 称 为 k- 项 集 。 例 如 ,集合 {啤酒 ,尿布 ， 
牛奶 } 是 一 个 3- 项 集 。 


2. 事务 

i 三 {i1,i2,.…. 永 } 是 由 数据 库 中 所 有 项 目 构成 的 集合 ， 一 次 处 理 所 含 项 目的 集合 用 T 表 示 ， 
T={t1,t2,.…tn}。 每 个 寻 包 含 的 项 集 都 是 1 的 子 集 。 例如， 如 果 顾 客 在 商场 里 同一 次 购买 多 种 商 
品 , 这 些 购物 信息 在 数据 库 中 有 一 个 唯一 的 标识 ,用 以 表示 这 些 商 品 是 同一 顾客 同一 次 购买 的 。 
称 该 用 户 的 本 次 购物 活动 对 应 一 个 数据 库 事务 。 

3. 关联 规则 

关联 规则 是 形 如 X=>Y 的 蕴含 式 ， 意 思 是 “如 果 X 则 Y”， 其 中 X、Y 都 是 1 的 子 集 ， 
AX AY 交集 为 空 。 X、Y 分 别称 为 规则 的 前 提 和 结果 , 或 者 规则 的 左 、 右 。 关 联 规则 反映 X 
中 的 项 目 出 现时 ，Y 中 的 项 目 也 跟着 出 现 的 规律 。 

4. 项 集 的 频数 ( Count ) 

对 于 任何 给 定 的 项 集 X， 包 含 X 的 事务 数 ， 称 为 X 的 频数 。 

5. 支持 度 ( Support ) 

包含 项 集 X 的 事务 数 与 总 事务 数 之 比 ， 称 为 X 的 支持 度 ， 记 为 : 


TotalX 


iom Totaltransactions 
6. 关联 规则 的 支持 度 


关联 规则 的 支持 度 是 事务 集中 同时 包含 X 和 YY 的 事务 数 与 所 有 事务 数 之 比 ， 其 实 也 就 是 
两 个 项 集 {X Y} 出 现在 事务 库 中 的 频率 ， 记 为 : 
Total(X UY) 


S(X => Y) = 一 一 一 一 一 一 一 
) Totaltransactions 


7. 关联 规则 的 置信 度 ( Confidence ) 


关联 规则 的 置信 度 是 事务 集中 包含 X AY 的 事务 数 与 所 有 包含 X 的 事务 数 之 比 ， 也 就 是 
TQUE X 出 现时 ， 项 集 Y 同时 出 现 的 概率 ， 记 为 : 
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conf(X — Y) = supp(X U Y) /supp(X) 
8. 关联 规则 的 提升 度 (Lift ) 
提升 度 表示 含有 X 的 条 件 下 , 同时 含有 YY 的 概率 , 与 不 含 X 的 条 件 下 却 含 有 Y 的 概率 之 
比 。 这 个 值 越 大 ， 越 表明 X 和 YY 有 较 强 的 关联 度 。 关 联 规则 的 提升 度 定义 为 : 


supp(X U Y) 
supp(X) x supp(Y) 





lift(X => Y) = 


9. 关联 规则 的 确信 度 ( Conviction ) 
确信 度 表 示 X 出 现 而 Y 不 出 现 的 概率 ， 也 就 是 规则 预测 错误 的 概率 。 确 信 度 也 用 来 衡量 
X 和 Y 的 独立 性 ， 这 个 值 越 大 ，X、Y 越 关 联 。 关 联 规则 的 确信 度 定义 为 


= __ 1- supp(Y) 

conv(X => Y) = i-conX- Y) 

10. 最 小 支持 度 与 最 小 置信 度 

通常 用 户 为 了 达到 一 定 的 要 求 ， 需 要 指定 规则 必须 满足 的 支持 度 和 置信 度 阔 值 ， 当 
Support(X=>Y)、confidence(X=>Y) 分 别 大 于 等 于 各 自 的 阔 值 时 ， 认 为 X=>Y 是 有 趣 的 ， 此 两 个 
值 称 为 最 小 支持 度 冰 值 (min_sup) 和 最 小 置信 和 度 阔 值 (min conf) 。 其 中 ，min_sup 描述 了 关 
联 规则 的 最 低 重要 程度 ，min_conf 规 定 了 关联 规则 必须 满足 的 最 低 可 靠 性 。 

11. 频繁 项 集 

设 U={u1,u2,.…,un} 为 项 目的 集合 ， 且 U L U#2, 对 于 给 定 的 最 小 支持 度 min_sup， 如 果 
项 集 U 的 支持 度 support(U)>=min_sup， 则 称 U 为 频繁 项 集 ， 否 则 U 为 非 频繁 项 集 。 

12. 强 关联 规则 

support(X=>Y)>=min_sup H. confidence(X=>Y)>=min_conf, 称 关联 规则 X=>Y 为 强 关联 规 
WW, ARUP X=>Y 为 弱 关 联 规则 。 

下 面 用 一 个 简单 的 例子 来 帮助 理解 这 些 定义 。 假 设 表 22-1 是 顾客 购买 记录 的 数据 库 D, 
包含 6 个 事务 。 





R221 ”购买 事务 记录 
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项 集 三 {网 球拍 ,网 球 ,运动 鞋 ,羽毛 球 }。 考 虑 关联 规则 : 网 球拍 => 网 球 ， 事 务 1、2、3、4、 
6 包含 网 球拍 ,事务 1.2.6 同时 包含 网 球拍 和 网 球 , 支持 度 support=3/6, 置信 度 confidence=3/5， 
提升 度 lift=(3/6)/((5/6)*(4/6))=9/10， 确 信和 度 conviction=(1-4/6)/(1-3/5)=5/6。 若 给 定 最 小 支持 度 
a =0.5， 最 小 置信 度 B=0.5， 关 联 规则 网 球拍 => 网 球 是 有 趣 的 ， 认 为 购买 网 球拍 和 购买 网 球 之 
间 存 在 强 关 联 规则 。 但 是 ， 由 于 提升 度 Lift 小 于 1， 就 是 说 是 否 购买 网 球 ， 与 有 没有 购买 网 球 
拍 关联 性 很 小 。 当 提升 度 Lift(X=>Y)>1 时 ， 则 规则 “X=>Y” 是 有 效 的 强 关联 规则 。 否 则 ， 规 
则 “X=>Y” 是 无 效 的 强 关 联 规则 。 特 别 地 ， 如 果 Lift(X=>Y)=1， 则 表示 X 与 Y 相互 独立 。 
因此 规则 网 球拍 => 网 球 是 无 效 的 强 关 联 规则 。 


2 2 e 2 Apriori 算法 


22.2.1 Apriori 算法 基本 思想 


关联 规则 挖掘 分 为 两 步 : (1) 找 出 所 有 频繁 项 集 (2〉 由 频繁 项 集 产生 强 关 联 规则 。 其 
总 体 性 能 由 第 一 步 决定 。 在 搜索 频繁 项 集 时 ， 最 简单 、 最 基本 的 算法 就 是 Apriori 算法 。 算 法 
的 名 字 基 于 这 样 一 个 事实 : 使 用 频繁 项 集 的 先 验 知识 。Apriori 使 用 一 种 被 称 作 逐 层 搜索 的 迭 
代 方 法 ，k- 项 集 用 于 搜索 (k+1)- 项 集 。 首 先 ， 通 过 扫描 数据 库 ， 积 累 每 个 项 目的 计数 ， 并 收集 
满足 最 小 支持 度 的 项 目 ， 找 出 频繁 1- 项 集 的 集合 。 该 集合 记 作 L1。 然 后 ，L1 用 于 找 频 繁 2- 
项 集 的 集合 L2，L2 用 于 找 L3， 如 此 下 去 ， 直 到 不 能 再 找到 频繁 k- 项 集 。 找 每 个 Lk 需要 一 次 
数据 库 全 扫描 。 

Apriori 核心 算法 思想 中 有 两 个 关键 步骤 : 连接 和 前 枝 。 

1. 连接 

为 找 出 Lk〈 频 繁 k- 项 集 ) ， 通 过 Lk-1 与 自身 连接 ， 产 生 候选 k- 项 集 ， 该 候选 项 集 记 作 
Ck; 其 中 Lk-1 的 元 素 是 可 连接 的 。 

2. 83s 

Ck 是 Lk 的 超 集 ， 即 它 的 成 员 可 以 是 也 可 以 不 是 频繁 的 ， 但 所 有 的 频繁 项 集 都 包含 在 Ck 
中 。 扫 描 数 据 库 ， 确 定 Ck 中 每 一 个 候选 项 的 计数 ， 从 而 确定 Lk 〈 计 数值 不 小 于 最 小 支持 度 
计数 的 所 有 候选 是 频繁 的 ， 从 而 属于 LIO 。 然 而 ，Ck 可 能 很 大 ,这 样 所 涉及 的 计算 量 就 很 大 。 
为 了 压缩 Ck， 使 用 Apriori 性 质 : 任 一 频繁 项 集 的 所 有 非 空 子 集 也 必须 是 频繁 的 ， 反 之 ， 如 果 
某 个 候选 的 非 空子 集 不 是 频繁 的 ， 那 么 该 候选 肯定 不 是 频繁 的 ， 从 而 可 以 将 其 从 Ck 中 删除 。 
例如 ， 如 果 {A,B,C} 是 一 个 3 项 的 频繁 项 集 ， 则 其 子 集 {A,B}、{B,C}、{A,C} 也 一 定 是 2 项 的 
频繁 项 集 。 剪 枝 事先 对 候选 集 进行 过 滤 ， 以 减少 访问 外 存 的 次 数 ,而 这 种 子 集 测试 本 身 可 以 使 
用 所 有 频繁 项 集 的 散 列 树 快速 完成 。 
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22.2.2 Apriori 算法 步骤 
假设 给 定 最 小 支持 度 和 最 小 置信 度 ，Apriori 算法 的 主要 步骤 如 下 : 


a) 扫描 全 部 数据 ， 产 生 候选 1- 项 集 的 集合 C1; 

(2) 根据 最 小 支持 度 ， 由 候选 1- 项 集 集 合 C1 产生 频繁 1- 项 集 的 集合 L1; 

G) 对 k>1， 重 复 执行 步骤 (4) 、 (5) 、 (6) ; 

(4) Hi Lk 执行 连接 和 剪 枝 操作 ， 产 生 候 选 (k+1)- 项 集 的 集合 Ck+1; 

C5) 根据 最 小 支持 度 ， 由 候选 (k+1)- 项 集 的 集合 CkHl, 产生 频繁 (k+1)- 项 集 的 集合 Lk+1; 

(6) di LA2, WW k=k+1, BEER (4) ; 否则 跳 往 步骤 CD ; 

CD 设 产生 的 频繁 项 集 为 A，A 的 所 有 真子 集 为 B， 根 据 最 小 置信 度 ， 产 生 B=> (A-B) 
的 强 关 联 规则 ， 结 束 。 




















MADIib 的 Apriori 算法 函数 


MADlib 的 assoc_rules 函数 实现 Apriori 算法 ， 用 于 生成 所 有 满足 给 定 最 小 支持 度 和 最 小 
置信 度 的 关联 规则 。 
1. 语法 
assoc_rules (support, 
confidence, 
tid_col, 
item_col, 
input_table, 
output_schema, 
verbose, 


max_itemset_size ); 
2. 参数 
support: 最 小 支持 度 。 
confidence: 最 小 置信 度 。 
tid col: 事务 ID 列 名 。 
item col: 项 目 对 应 的 列 名 。 
input_table: 包含 输入 数据 的 表 名 。 输 入 表 的 结构 为 : 
{TABLE|VIEW} input_table ( 


trans_id INTEGER, 
product TEXT ) 


该 算法 将 产品 名 称 映射 到 从 1 开始 的 连续 的 整 型 事务 ID 上 。 如 果 输 入 数据 本 身 已 经 结构 
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化 为 这 种 形式 ， 则 事务 ID 保持 不 变 。 
output schema: 存储 最 终结 果 的 模式 名 称 ， 调 用 函数 前 ， 模 式 必须 已 创建 。 如 果 此 参数 
为 NULL， 则 输出 到 当前 模式 。 结 果 存 储 在 输出 模式 中 的 assoc_rules KH, RAA FY: 


Column | Type 
€ | 
ruleid | integer 
pre | text[] 
post | text[] 
count | integer 
support | double precision 
confidence | double precision 
lift | double precision 
conviction | double precision 


在 HAWQ "F, assoc rules 表 通 过 ruleid 列 哈 希 分 布 存储 。pre 和 post 列 分 别 是 相应 关联 规 
则 的 左右 项 集 。count、support、confidence、lift 和 conviction 列 分 别 对 应 关联 规则 的 频数 、 支 
持 度 、 置 信 度 、 提 升 度 和 确信 度 。 


verbose: BOOLEAN 类 型 ， 默 认为 false， 指 示 是 否 详细 打印 算法 过 程 中 每 次 友人 代 的 结果 。 

max itemset size: INTEGER 类 型 ， 该 参数 值 必须 大 于 等 于 2， 指定 用 于 产生 关联 规则 的 
频繁 项 集 的 大 小 ， 默 认 值 是 产生 全 部 项 集 。 当 项 集 太 大 时 ， 可 用 此 参数 限制 数据 集 的 大 小 ， 以 
减少 运行 时 长 。 


Ay A NC — 
DL. Apriori 应 用 示例 


本 节 我 们 就 用 “啤酒 与 尿布 ”的 经 典 示 例 ， 人 为 模拟 一 些 购买 记录 作为 输入 数据 ， 然 后 调 
用 madlib.assoc_rules 函数 生成 关联 规则 。 我 们 将 对 比 控制 台 的 打印 信息 ， 一 步 步 说 明 该 函数 
获取 关联 规则 的 计算 过 程 ， 并 对 最 终结 果 进 行 分 析 o 


1. 创建 输入 数据 集 


drop table if exists test data; 
create table test data ( 
trans id int, 
product text 
) 7 
insert into test_data values 
(1, beer), (1, diapers"), (1, chips"), 
(2, 'beer'), (2, 'diapers'), 
(3, "beer"), (3, 'diapers'), 
t, beer )r (1; 1chips?); 
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(5, 'beer'), 
(6, 'beer'), (6, 'diapers'), (6, 'chips'), 
(7, 'beer'), (7, 'diapers'); 


2. 调用 madlib.assoc rules 函数 生成 关联 规则 
设置 最 小 支持 度 min(support) = 0.25， 最 小 置信 和 度 min(confidence) = 0.5。 和 输出 模式 设置 为 


NULL， 输 出 到 当前 模式 。verbose 设置 为 TRUE， 这 样 就 能 观察 和 验证 函数 执行 的 过 程 。 
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select * from madlib.assoc rules 


(| o8, -- 最 小 支持 度 
-- 最 小 置信 度 
'trans id', -- 事务 ID 列 名 
'product', -- 产品 列 名 
'test data', -- 输入 数据 表 
null, -- 在 当前 模式 创建 输出 表 
true -- 打印 详细 信息 


) 
控制 台 打 印 的 输出 信息 如 下 : 


INFO: finished checking parameters 

CONTEXT: PL/Python function "assoc rules" 

INFO: finished removing duplicates 

CONTEXT: PL/Python function "assoc rules" 

INFO: finished encoding items 

CONTEXT: PL/Python function "assoc rules" 

INFO: finished encoding input table: 4.55814695358 
CONTEXT: PL/Python function "assoc rules" 

INFO: Beginning iteration #1 

CONTEXT: PL/Python function "assoc rules" 

INFO: 3 Frequent itemsets found in this iteration 
CONTEXT: PL/Python function "assoc rules" 

INFO: Completed iteration # 1. Time: 0.756361961365 
CONTEXT: PL/Python function "assoc rules" 

INFO: Beginning iteration # 2 

CONTEXT: PL/Python function "assoc rules" 

INFO: time of preparing data: 0.784854888916 
CONTEXT: PL/Python function "assoc_rules" 

INFO: 3 Frequent itemsets found in this iteration 
CONTEXT: PL/Python function "assoc_rules" 

INFO: Completed iteration # 2. Time: 1.89147591591 
CONTEXT: PL/Python function "assoc rules" 

INFO: Beginning iteration # 3 

CONTEXT: PL/Python function "assoc rules" 

INFO: time of preparing data: 0.577459096909 
CONTEXT: PL/Python function "assoc rules" 
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INFO: 1 Frequent itemsets found in this iteration 
CONTEXT: PL/Python function "assoc rules" 

INFO: Completed iteration # 3. Time: 1.32646298409 
CONTEXT: PL/Python function "assoc rules" 

INFO: Beginning iteration # 4 

CONTEXT: PL/Python function "assoc rules" 

INFO: time of preparing data: 0.31945681572 
CONTEXT: PL/Python function "assoc rules" 

INFO: 0 Frequent itemsets found in this iteration 
CONTEXT: PL/Python function "assoc rules" 

INFO: Completed iteration # 4. Time: 0.751129865646 
CONTEXT: PL/Python function "assoc rules" 

INFO: begin to generate the final rules 

CONTEXT: PL/Python function "assoc rules" 

INFO: 7 Total association rules found. Time: 1.1944539547 
CONTEXT: PL/Python function "assoc rules" 


output_schema | output table | total rules | total time 
--------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
public | assoc rules | 7 | 00:00:10.566625 

(1 row) 


madlib.assoc_rule 函数 产生 频繁 项 集 及 关联 规则 的 过 程 如 下 : 
(1) 验证 参数 、 去 除 重复 数据 、 对 输入 数据 编码 (生成 从 1 开始 的 连续 的 事务 ID， 本 例 
原始 数据 已 经 满足 要 求 ， 因 此 不 需要 编码 ) 。 
(2) 首次 迭代 ， 生 成 所 有 支持 度 大 于 等 于 025 的 1 阶 项 集 作 为 初始 项 集 ， 如 表 22-2 所 
示 。 因 为 三 个 1 阶 项 集 的 支持 度 都 大 于 0.25， 所 以 初始 项 集 包 含 所 有 三 个 项 集 。 


表 22-2 1 阶 项 集 














G) EANO 3, KEF RETER. ERA RARR 22-3 所 示 。 因 为 三 
个 2 阶 项 集 的 支持 度 都 大 于 0.25， 所 以 本 次 迭代 结果 的 频繁 项 集 包 含 所 有 三 个 项 集 。 


表 22-3 2 阶 项 集 










项 集 


beer, diapers 










beer, chips 








diapers, chips 
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(D 第 三 次 迭代 ， 得 到 的 频繁 项 集 如 表 22-4 所 示 。 因 为 唯一 一 个 3 阶 项 集 的 支持 度 大 于 
0.25， 所 以 本 次 迭代 结果 的 频繁 项 集 包 含 一 个 项 集 。 


表 22-4 3 阶 项 集 





项 集 


频数 支持 度 





beer, diapers, chips 2 2/7 





(5) 第 四 次 迭代 ， 因 为 阶 数 为 3， 所 以 本 次 迭代 的 结果 为 空 集 。 
(6) 产生 关联 规则 ， 置 信 度 大 于 等 于 0.5 的 关联 规则 如 表 22-5 中 粗 体 行 所 示 。 




















表 22-5 关联 规则 
前 提 结果 支持 度 置信 度 
beer diapers 5/7=0.71428571 (5/7)(7/7)= 0.71428571 
diapers beer 5/7=0.71428571 (5/7)(5/7)=1 
beer chips 3/7=0.42857143 (3/7)(7/7)= 0.42857143 
chips beer 3/7=0.42857 142 (3/7)(3/7)=1 
diapers chips 2/7=0.28571429 (2/7)(5/7)=0.4 
chips diapers 2/7=0.28571429 (2/7)/(3/7)=0.66666667 
beer diapers, chips 2/1-0.28571429 (2/7)(7/7)= 0.28571429 
beer, diapers chips 2/1-0.28571429 (2/7)5/7)=0.4 
beer, chips diapers 2/7=0.28571429 (2/7)(3/7)= 0.66666667 
diapers beer, chips 2/7=0.28571429 (2/7)(5/7)=0.4 
diapers, chips beer 2/1-0.28571429 (2/7)(2/7)=1 
chips beer, diapers 2/1-0.28571429 (2/7)/(3/7)= 0.66666667 


关联 规则 存储 在 assoc rules 表 中 ， 查 询 结果 与 表 22-5 所 反映 的 相同 : 


dm=# select ruleid id, 


dm-# 
dm-# 
dm-# 
dm-# 
dm-# 
dm-# 
dm-# 


pre, 
post, 
count c, 


round (support::numeric,4) sup, 


round (confidence: :numeric,4) conf, 


round(lift::numeric,4) lift, 


round (conviction: :numeric,4) conv 


dm-# from assoc rules 


dm-# order by support desc, confidence desc; 


id | 


4 | {diapers} | {beer} 
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pre | post 


lec sup 


| 1.0000 | 0.0000 


第 22 章 ”关联 规则 方 


2 | {beer} | {diapers} [Se OT OT 00nl 

3 | {chips} | {beer} | 3 | 0.4286 | 1.0000 | 1.0000 | 

5 | {diapers,chips}| {beer} | 2 | 0.2857 | 1.0000 | 1.0000 

1 | {chips} | {diapers} | 2 022857) | 0.6667 | 0.9333 

7 | {chips} | {diapers,beer}| 2 | 0.2857 | 0.6667 | 0.9333 

6 | {beer,chips} | {diapers} 12] 0.2857 | 0.6667 | 0.9333 
(7 rows) 


3. 限制 生成 关联 规则 的 项 集 大 小 为 2， 再 次 执行 madlib.assoc_rules 函数 


1.0000 
0.0000 
| 0.0000 
1| 0.8571 
| 0.8571 
1 0.8571 


VERE, madlib.assoc rules 函数 总 会 新 创建 assoc_rules 表 。 如 果 要 保留 多 个 关联 规则 表 , 需 


要 在 运行 函数 前 备份 已 存在 的 assoc_rules 表 。 


select * from madlib.assoc rules 


(85257 -- 最 小 支持 度 
E -- 最 小 置信 度 
‘trans id’, -- 事务 ID 列 名 
'product', -- 产品 列 名 
'test data',  -- 输入 数据 表 
null, -- 在 当前 模式 创建 输出 表 
true, -- 打印 详细 信息 
2 -- 最 大 项 集 数 


) 
这 次 生成 的 关联 规则 如 下 : 


dm=# select ruleid id, 


dm-# pre, 

dm-# post, 

dm-# count c, 

dm-# round (support: :numeric,4) sup, 
dm-# round (confidence: :numeric,4) conf, 
dm-# round (lift::numeric,4) lift, 

dm-# round (conviction::numeric,4) conv 


dm-# from assoc_rules 
dm-# order by support desc, confidence desc; 


id | pre | post | c | sup I cone I IEE S|) conv: 
----+-----------+----------- 十 -一 一 十 一 一 一 一 一 一 一 一 4-------- 4-------- 4-------- 
4 | {diapers} | {beer} | 5 | 0.7143 | 1.0000 | 1.0000 | 0.0000 
2 | {beer} | {diapers} | 5 | 0.7143 | 0.7143 | 1.0000 | 1.0000 
3 | {chips} | {beer} | 3 | 0.4286 | 1.0000 | 1.0000 | 0.0000 
1 || {chips} | {diapers} | 2 | 0.2857 | 0.6667 | 0.9333 | 0.8571 

(4 rows) 


4. 按 需 过 滤 关 联 规则 
例如 ， 如 果 想 得 到 规则 左 端 项 集 只 有 一 个 项 目 ， 并 且 规则 右 端 项 集 为 “beer”: 
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dm=# select ruleid, pre, post, count c, round(support::numeric,4) sup, 
dm-# confidence, lift, conviction 
dm-# from assoc_rules 


dm-# where array upper(pre,1) = 1 and post = array['beer']; 


ruleid | pre | post | c| sup | confidence | lift | conviction 
-------- 十 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 
3 | {chips} | {beer} | 31 0.4286 | al! = {| ib 0 
4 | {diapers} | {beer} | 5 [ 0.7143 | 1 | ib | 0 
(2 rows) 
5. 分 析 关联 规则 


madlib.assoc_rules 函数 是 根据 用 户 设置 的 支持 度 与 置信 度 阔 值 生成 关联 规则 的 。 我 们 以 支 
持 度 和 置信 和 度 闵 值 限制 得 到 了 7 个 关联 规则 ， 但 这 些 规则 的 有 效 性 如 何 呢 ? 前 面 提 到 ， 满 足 
最 小 支持 度 和 最 小 置信 度 的 规则 ， 叫 做 “ 强 关 联 规则 ”。 然 而 ， 强 关联 规则 里 ， 也 分 有 效 的 强 
关联 规则 和 无 效 的 强 关 联 规则 。 

从 提升 度 来 看 ， 提 升 度 大 于 1， 则 规则 是 有 效 的 强 关联 规则 ， 否 则 是 无 效 的 强 关 联 规则 。 
如 果 提 升 度 =1， 说 明 前 提 与 结果 彼此 独立 ， 没 有 任何 关联 ， 如 果 <1， 说 明 前 提 与 结果 是 相 斥 
的 。 以 规则 5 为 例 ， 提 升 度 为 0.93， 说 明 购买 了 diapers 的 顾客 就 不 会 购买 chips。 因 此 用 提升 
度 作为 度量 ， 结 果 中 的 7 个 规则 都 是 无 效 的 。 


22.5 We 


关联 规则 挖掘 的 目标 在 于 发 现 数据 项 集 之 间 的 关联 关系 ， 该 方法 常 被 用 于 购物 篮 分 析 , 著 
名 的 “啤酒 与 尿布 ”案例 就 是 关联 规则 的 典型 应 用 。Apriori 是 关联 规则 挖掘 的 经 典 算法 ， 特 
点 是 比较 简单 ， 易 于 理解 和 实现 。MADlib 提供 的 assoc rules 函数 实现 Apriori 算法 ， 用 于 生 
成 所 有 满足 给 定 最 小 支持 度 和 最 小 置信 度 阔 值 的 关联 规则 。 使 用 该 函数 生成 强 关 联 规 则 后 , 还 
需要 分 析 提 升 度 判断 其 有 效 性 。 
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“ 物 以 类 聚 ， 人 以 群 分 ”， 其 核心 思想 就 是 聚 类 。 所 谓 聚 类 ， 就 是 将 相似 的 事物 聚集 在 一 
起 ， 而 将 不 相似 的 事物 划分 到 不 同 的 类 别 的 过 程 ， 是 数据 分 析 中 十 分 重要 的 一 种 手段 。 比 如 十 
典 生物 学 中 , 人 们 通过 物种 的 形 貌 特征 将 其 分 门 别 类 , 可 以 说 就 是 一 种 朴素 的 人 工 聚 类 。 如 此 ， 
我 们 就 可 以 将 世界 上 纷繁 复杂 的 信息 , 简化 为 少数 方便 人 们 理解 的 类 别 , 因此 聚 类 可 以 说 是 人 
类 认 知 这 个 世界 的 最 基本 方式 之 一 。 通 过 聚 类 ， 人 们 能 意识 到 密集 和 稀 朴 的 区 域 ， 发 现 全 局 的 
分 布 模式 ， 以 及 数据 属性 之 间 有 趣 的 相互 关系 。 

聚 类 起 源 于 分 类 学 ,在 古老 的 分 类 学 中 ,人 们 主要 依靠 经 验 和 专业 知识 来 实现 分 类 ， 很 少 
利用 数学 工具 定量 分 类 。 随 着 科学 技术 的 发 展 ， 对 分 类 的 要 求 越 来 越 高 ， 以 至 有 时 仅 赁 经验 难 
以 确切 地 分 类 ,于 是 人 们 逐渐 把 数学 工具 引用 到 了 分 类 学 中 , 形成 了 数值 分 析 学 ， 之 后 又 将 多 
元 分 析 技 术 引 入 进 数 值 分 类 学 ， 从 而 形成 了 聚 类 。 在 实践 中 ， 聚 类 往往 为 分 类 服务 ， 即 先 通过 
聚 类 来 判断 事物 的 合适 类 别 ， 然 后 在 利用 分 类 技术 对 新 的 样本 进行 分 类 。 

聚 类 算法 大 都 是 几 种 最 基本 的 方法 ， 如 k-means、 层 次 聚 类 、SOM 等 ， 以 及 它们 的 许多 
改进 变种 。MADlib 提供 了 一 种 k-means 算法 的 实现 。 本 章 主要 介绍 MADIib 的 k-means 算法 
相关 函数 和 应 用 案例 。 


23.1 RADAIN 


1. 聚 类 的 概念 


将 物理 或 抽象 对 象 的 集合 分 成 由 类 似 的 对 象 组 成 的 多 个 类 或 能 (Cluster) 的 过 程 被 称 为 聚 
类 (Clustering) 。 由 聚 类 所 生成 的 簇 是 一 组 数据 对 象 的 集合 ， 这 些 对 象 与 同一 个 簇 中 的 对 象 
相似 度 较 高 ,与 其 他 簇 中 的 对 象 相 似 度 较 低 。 相 似 度 是 根据 描述 对 象 的 属性 值 来 度量 的 , 距离 
是 经 常 采用 的 度量 方式 。 分 析 事物 聚 类 的 过 程 称 为 聚 类 分 析 或 群 分 析 , 是 研究 样品 或 指标 分 类 
问题 的 一 种 统计 分 析 方 法 。 

在 数据 分 析 的 术语 中 , 聚 类 和 分 类 是 两 种 技术 。 分 类 是 指 已 经 知道 了 事物 的 类 别 , 需要 从 
样品 中 学 习 分 类 规则 ， 对 新 的 、 无 标记 的 对 象 赋予 类 别 ， 是 一 种 有 监督 学 习 。 而 聚 类 则 没有 事 


先 预定 的 类 别 ， 而 是 依据 人 为 给 定 的 规则 进行 训练 ,类别 在 聚 类 过 程 中 自动 生成 ， 从 而 得 到 分 
K, 是 一 种 无 监督 学 习 。 作 为 一 个 数据 挖掘 的 功能 ， 聚 类 可 当 作 独立 的 工具 来 获得 数据 分 布 情 
况 , 观察 每 个 簇 的 特点 , 集中 对 特定 簇 做 进一步 的 分 析 。 此 外 ， 聚 类 分 析 还 可 以 作为 其 他 算法 


IR PLE 





步骤 ， 简 少 计算 量 ， 提 高 分 析 效 率 。 


2. 类 的 度量 方法 

虽然 类 的 形式 各 有 不 同 ， 但 总 的 来 说 ， 一 般 用 距离 作为 类 的 度量 方法 。 设 x、y 是 两 个 向 
Hx =(%1,..., Xn) fly =(y1 passi Ya) 

， 聚 类 分 析 中 常用 的 距离 有 以 下 几 种 。 


ad 


) 曼哈顿 距离 


x. y 的 曼哈顿 距离 定义 为 


(2 


lx — ylh= Mia lxi — yi | 


) 欧 氏 距离 


xs y 的 欧 氏 距离 定义 为 : 


(3 


lx — yl VUE Oi — yi)? 


) 欧 氏 平方 距离 


xs y 的 欧 氏 平方 距离 定义 为 : 


(4 


lix — yll$ = Xizi — yi)? 
) 角 距 离 


x y 的 角 距 离 定义 为 : 





X 
arccos(- 822.) 
azecos IT 


A BERE x. y 两 个 向 量 的 2 范 数 乘积 。 


(5 


) 谷 本 距离 


x. y 的 谷 本 距离 定义 为 : 





__ G3) 
IZIS? — GG») 


k-means 方法 


在 数据 挖掘 中 ，k-means 算法 是 一 种 广泛 使 用 的 聚 类 分 析 算 法 ， 也 是 MADIib 1.10.0 官方 
文档 中 唯一 提 及 的 聚 类 算法 。 
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第 23 章 ， 聚 类 方法 
23.2.1 基本 思想 


k-means 聚 类 划分 方法 的 基本 思想 是 : 将 一 个 给 定 的 有 N 个 数据 记录 的 集合 ， 划 分 到 K 
个 分 组 中 ， 每 一 个 分 组 就 代表 一 个 徐 ，K<N。 而 且 这 K 个 分 组 满足 下 列 条 件 : 

@ 每 一 个 分 组 至 少 包 含 一 个 数据 记录 。 

@ 每 一 个 数据 记录 属于 且 仅 属于 一 个 分 组 。 

算法 首先 给 出 一 个 初始 的 分 组 ， 以 后 通过 反复 迭代 的 方法 改变 分 组 ,使 得 每 一 次 改进 之 后 
的 分 组 方案 都 较 前 一 次 好 , 而 所 谓 好 的 标准 就 是 : 同一 分 组 中 对 象 的 距离 越 近 越 好 (已 经 收敛 ， 
反复 迭代 至 组 内 数据 几乎 无 差异 ) ， 而 不 同 分 组 中 对 象 的 距离 越 远 越 好 。 


23.2.2 ”原理 与 步骤 


k-means 算法 的 工作 原理 是 : 首先 随机 从 数据 集中 选取 K 个 点 , 每 个 点 初始 地 代表 每 个 簇 
的 中 心 , 然后 计算 剩余 各 个 样本 到 中 心 点 的 距离 ,将 它 赋 给 最 近 的 徐 , 接着 重新 计算 每 一 簇 的 
平均 值 作为 新 的 中 心 点 ， 整 个 过 程 不 断 重复 ， 如 果 相 邻 两 次 调整 没有 明显 变化 ,说 明 数 据 聚 类 
形成 的 秘 已 经 收敛。 本 算法 的 一 个 特点 是 在 每 次 迭代 中 都 要 考察 每 个 样本 的 分 类 是 否 正确 。 若 
不 正确 ， 就 要 调整 ， 在 全 部 样本 调整 完 后 ， 再 修改 中 心 点 ， 进 入 下 一 次 迭代 。 这 个 过 程 将 不 断 
重复 直到 满足 某 个 终止 条 件 ， 终 止 条 件 可 以 是 以 下 任何 一 个 

@ ”没有 对 象 被 重新 分 配给 不 同 的 聚 类 。 

© REP SHR RE, 

e 误差 平方 和 局 部 最 小 。 

k-means 算法 是 很 典型 的 基于 距离 的 聚 类 算法 ,采用 距离 作为 相似 性 的 评价 指标 ， 即 认为 
两 个 对 象 的 距离 越 近 ， 其 相似 度 就 越 大 。 该 算法 认为 入 是 由 距离 靠近 的 对 象 组 成 ， 因 此 把 得 到 
紧 竣 且 独 立 的 簇 作为 最 终 目 标 。 

k-means 算法 的 输入 是 聚 类 个 数 k， 以 及 mn 个 数据 对 象 ， 输 出 是 满足 误差 最 小 标准 的 k 个 
聚 禾 。 其 处 理 流程 为 : 


CD) 从 n 个 数据 对 象 中 任意 选择 k 个 对 象 作为 初始 中 心 。 
QD 计算 每 个 对 象 与 这 些 中 心 对 象 的 距离 ， 并 根据 最 小 距离 对 相应 的 对 象 进行 划分 。 
(3) 重新 计算 每 个 有 变化 聚 类 的 均值 作为 新 的 中 心 。 
(D 循环 步骤 D, (3) 直到 每 个 聚 类 不 再 发 生变 化 为 止 。 终 止 条 件 一 般 为 最 小 化 对 
象 到 其 聚 类 中 心 的 距离 的 平方 和 : 
K 


min)” p? dist(c;x) 


i=1 xECi 


VY 





23.2.3 k-means 算法 
k-means 算法 接受 输入 量 k, 然后 将 n 个 数据 对 象 划分 为 k 个 簇 以 便 使 得 所 获得 的 簇 满足 : 
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同一 簇 中 的 对 象 相 似 度 较 高 , VUA TD AEH POSER HALE ABA o EARE AH HT SET] 
值 所 获得 的 中 心 对 象 来 进行 计算 的 。 为 了 便于 理解 k-means 算法 ， 可 以 参考 图 23-1 所 示 的 二 


Go) 
: © 
o 
© © 
v 
QO 了 
© 
" 9. 
$ o0 d “© 
23-1 k-means 聚 类 算法 
从 图 中 我 们 可 以 看 到 A、B、C、D、E 五 个 点 。 而 灰色 的 点 是 初始 中 心 点 ， 也 就 是 用 来 找 


徐 的 点 。 有 两 个 中 心 点 ， 所 以 K=2。 
k-means 的 算法 如 下 : 


(1) 随机 在 图 中 取 K〈 这 里 K=2) 个 初始 中 心 点 。 

(2) 对 图 中 的 所 有 点 求 到 这 个 中 心 点 的 距离 ， 假 如 点 Pi 离 种 子 点 Si 最近， 那么 Pi 属 
T Si 聚 类 。 图 23-1 中 ,我 们 可 以 看 到 A、B 属于 上 面 的 中 心 点 ，C、D、E 属于 下 面 中 部 的 中 
心 点 。 

G) 移动 中 心 点 到 属于 它 的 簇 的 中 心 ， 作 为 新 的 中 心 点 ， 见 图 23-1 上 的 第 三 步 。 

(4) 重复 第 (2) 和 第 G) 步 ， 直 到 中 心 点 没有 移动 ， 可 以 看 到 图 23-1 中 的 第 四 步 上 面 
的 中 心 点 聚合 了 A、B、C， 下 面 的 中 心 点 聚合 了 D、E。 


二 维 坐标 中 两 点 之 间距 离 公式 如 下 : 


|AB| = y (x1 — x2)? + (y1 — y2)? 
公式 中 (x1，y1)，(x2，y2) 分 别 为 A、B 两 个 点 的 坐标 。 求 聚 类 中 心 点 的 算法 可 以 简单 使 
用 各 个 点 的 X/Y 坐标 的 平均 值 。 
k-means 主要 有 两 个 重大 缺陷 ， 并 且 都 和 初始 值 有 关 : 
© KK 是 事先 给 定 的 ， 这 个 值 的 选 定 是 非常 难以 估计 的 。 很 多 时 候 ， 事 先 并 不 知道 给 
定 的 数据 集 应 该 分 成 多 少 个 类 别 才 最 合适 (ISODATA 算法 通过 类 的 自动 合并 和 分 
裂 ， 得 到 较为 合理 的 类 型 数目 K) 。 


维 向 量 的 例子 。 
6 o ? 
© 
© 
© © 
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€ k-means 算法 以 初始 随机 中 心 点 为 基础 ， 这 个 随机 中 心 点 非常 重要 ,不同 的 随机 中 心 
点 会 有 得 到 完全 不 同 的 结果 。k-means++ 算 法 就 是 用 来 解决 这 个 问题 ， 它 可 以 有 效 地 
选择 初始 点 。 


k-means++ 算 法 步 又 : 


(1) 先 从 输入 数据 对 象 中 随机 挑 一 个 作为 中 心 点 。 

(2) 对 于 每 个 数据 对 象 x, 计算 其 和 最 近 的 一 个 中 心 点 的 距离 D(x) 并 保存 在 一 个 数组 里 ， 
然后 把 这 些 距离 加 起 来 得 到 Sum(D(x))。 

(3) 再 取 一 个 随机 值 ， 用 取 权 重 的 方式 来 计算 下 一 个 中 心 点 。 这 个 算法 的 实现 是 ， 先 取 

-个 能 落 在 Sum(D(x)) 中 的 随机 值 Random， 然 后 用 Random -= D(x)， 直 到 其 <=0， 此 时 的 x 就 

是 下 一 个 中 心 点 。 

(4) 重复 第 (2) 和 第 (3) 步 直到 所 有 的 K 个 中 心 点 都 被 选 出 来 。 

(5) 进行 k-means 算法 。 











^7 2 
2 “ee MADIib 的 k-means 相关 函数 
形式 上 ， 我 们 希望 最 小 化 以 下 目标 函数 : 
(C4, c) > > min dist (xi, cj) 
izi 


HPE a, 8, X QE n SBR, Ca, ns iek PH, HULSE P. PRESE 
欧 氏 平方 距离 。 这 个 问题 在 计算 上 很 困难 CNP-hard 问题 )》， 但 由 于 局 部 启发 式 搜索 算法 在 实 
践 中 表现 得 相当 好 ， 如 今 被 普遍 采用 ， 其 中 之 一 就 是 前 面 讨论 的 k-means 算法 。MADlib 提供 
了 三 组 k-means 算法 相关 函数 ， 分 别 是 训练 函数 、 簇 分 配 函 数 和 轮廓 系数 函数 。 
1. 训练 函数 
(1) 语法 
MADIib 提供 了 以 下 四 个 k-means 算法 训练 函数 。 使 用 随机 中 心 点 方法 ， 语 法 如 下 : 
kmeans_random (rel_source, 
expr_point, 
k, 
fn dist, 
agg centroid, 
max num iterations, 


min frac reassigned 


) 
使 用 kmeans++ 中 心 点 方法 ， 语 法 如 下 : 
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kmeanspp( rel_source, 
expr_point, 
k, 
fn dist, 
agg centroid, 
max num iterations, 
min frac reassigned, 
seeding sample ratio 

) 


由 rel initial centroids 参数 提供 一 个 包含 初始 中 心 点 的 表 名 ， 语 法 如 下 : 


kmeans ( rel_source, 

expr_point, 

rel_initial_centroids, 

expr centroid, 

fn_dist, 

agg_centroid, 

max_num_iterations, 

min_frac_ reassigned 

) 

由 initial centroids 参数 提供 的 数组 表达 式 ， 指 定 一 个 初始 中 心 点 集合 ， 语 法 如 下 : 
kmeans( rel_source, 

expr_point, 

initial_centroids, 

fn_dist, 

agg_centroid, 

max_num_iterations, 

min_frac_reassigned 


) 


(2) 参数 

rel source: TEXT 类 型 ， 含 有 输入 数据 对 象 的 表 名 。 数 据 对 象 和 预定 义 中 心 点 〈 如 果 使 用 
的 话 ) 应 该 使 用 一 个 数组 类 型 的 列 存储 ， 如 FLOAT[] 或 INTEGERD。 调 用 任何 以 上 四 种 函数 进行 
数据 分 析 时 ， 都 会 跳 过 具有 non-finite 值 的 数据 对 象 ，non-finite 值 包括 NULL. NaN, infinity 等 。 

expr point: TEXT 类 型 ， 包 含 数据 对 象 的 列 名 。 

k: INTEGER 类 型 ， 指 定 要 计算 的 中 心 点 的 个 数 。 

fn dist (可 选 ) : TEXT 类 型 ， 默 认 值 为 squared dist norm2 ， 指 定 计算 数据 对 象 与 中 心 
点 距离 的 函数 名 称 。 可 以 使 用 以 下 距离 函数 ， 括 号 内 为 均值 计算 方法 : 


© dist norml: 1 范 数 /曼哈顿 距离 (元素 中 位 数 ) 。 
€ dist norm2: 2 范式 / 欧 氏 距离 (元素 平均 数 ) 。 
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squared dist norm2: 欧 氏 平方 距离 (元 素平 均 数 ) 。 
dist angle: 角 距 离 ( 归 一 化 数据 的 元 素平 均 数 ) 。 
dist tanimoto: 谷 本 距离 ( 归 一 化 数据 的 元 素平 均 数 ) 。 
具有 DOUBLE PRECISION[] x, DOUBLE PRECISION[] y > DOUBLE PRECISION Å 
数 形式 的 用 户 自 定义 函数 。 

agg centroid (可 选 ) : TEXT 类 型 ， 默 认 值 为 avg 。 确 定 中 心 点 使 用 的 聚合 函数 名 ， 可 
以 使 用 以 下 聚合 函数 : 

€ avg: 平均 值 (默认 ) 。 

€ normalized avg: 归 一 化 平均 值 。 


max num iterations (MJ) : INTEGER 类 型 ， 默 认 值 为 20， 指 定 执行 的 最 大 迭代 次 数 。 
min_frac_reassigned〈 可 选 ) : DOUBLE PRECISION 类 型 ， 默 认 值 为 0.001。 相 邻 两 次 迭 
代 所 有 中 心 点 相差 小 于 该 值 时 计算 完成 。 
seeding_sample_ratio( 可 选 ) : DOUBLE PRECISION， 默 认 值 为 1.0。kmeans++ 将 扫描 数 
Hi k 次 , 对 大 数据 集会 很 慢 , 此 参数 指定 用 于 确定 初始 中 心 点 所 使 用 的 原始 数据 集 样本 比例 。 
当 此 参数 大 于 0 时 (最 大 值 为 1.0) ,初始 中 心 点 在 数据 均匀 分 布 的 随机 样本 上 。 注意 , k-means 
算法 最 终 会 在 全 部 数据 集 上 执行 。 此 参数 只 是 为 确定 初始 中 心 点 建立 一 个 子 样本 ， 并 且 只 对 
kmeans++ 有 效 。 
rel_initial_centroids: TEXT 类 型 ， 包 含 初始 中 心 点 的 表 名 。 
expr_centroid: TEXT 类 型 rel_initial_centroids 指定 的 表 中 包含 中 心 点 的 列 名 。 
initial centroidss. TEXT 类 型 ， 包 含 初始 中 心 点 的 DOUBLE PRECISION 数组 表达 式 的 字 
符 串 。 
(3) 输出 格式 
k-means 模型 的 输出 具有 以 下 列 的 复合 数据 类 型 : 
centroids: DOUBLE PRECISION[][] 类 型 ， 最 终 的 中 心 点 。 
cluster variance: DOUBLE PRECISION[] 类 型 #44507 2. 
objective fn: DOUBLE PRECISION 类 型 ， 方 差 合计 。 
frac reassigned: DOUBLE PRECISION 类 型 ， 在 最 后 一 次 迁 代 的 误差 。 
num iterations: INTEGER 类 型 ， 和 迭代 执 行 的 次 数 。 
2. 簇 分 配 函 数 
(1) 语法 
得 到 中 心 点 后 ， 可 以 调用 以 下 函数 为 每 个 数据 对 象 进行 簇 分 配 : 
closest column( m, x ) 


(2) 参数 
m: DOUBLE PRECISION[][] 类 型 ， 训 练 函数 返回 的 中 心 点 。 
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x: DOUBLE PRECISION[] 类 型 ， 输 入 数据 。 
(3) 输出 格式 


column id: INTEGER 类 型 ， 簇 ID， 从 0 开始 。 
distance: DOUBLE PRECISION 类 型 ， 数 据 对 象 与 徐 中 心 点 的 距离 。 


3. 轮廓 系数 函数 


轮廓 系数 (Silhouette Coefficient) ， 是 聚 类 效果 好 坏 的 一 种 评价 方法 。 作 为 k-means 模型 
的 一 部 分 MADIib 提供 了 一 个 轮廓 系数 方法 的 简化 版 本 函数 ， 该 函数 结果 值 处 于 -1 ~ 1 之 间 ， 
值 越 大 ， 表 示 聚 类 效果 越 好 。 注 意 ， 对 于 大 数据 集 ， 该 函数 的 计算 代价 很 高 。 


CD 语法 
simple silhouette( rel source, 
expr point, 
centroids, 
fn dist 


) 
(2) 参数 


rel source: TEXT 类 型 ， 含 有 输入 数据 对 象 的 表 名 。 

expr_point: TEXT 类 型 ， 数 据 对 象 列 名 。 

centroids: TEXT 类 型 。 中 心 点 表达 式 。 

fn_dist( 可 选 ): TEXT 类 型 ,计算 数据 点 到 中 心 点 距离 的 函数 名 ,默认 值 为 ‘dist_norm2’。 


k-means 应 用 示例 


1. 问题 提出 

RFM 模型 是 在 做 用 户 价值 细 分 时 常用 的 方法 ， 主 要 涵盖 的 指标 有 最 近 一 次 消费 时 间 R 
(Recency) 、 消 费 频 率 (Frequency) ， 消 费 金 额 (Monetary) 。 我 们 用 R、F、M 三 个 指标 
作为 数据 对 象 属性 ， 应 用 MADIib 的 k-means 模型 相关 函数 对 用 户 进行 聚 类 分 析 ， 并 得 出 具有 
实用 性 和 解释 性 的 结论 。 

2. 建立 测试 数据 表 并 装载 原始 数据 

-- 创建 原始 数据 表 

drop table if exists t_source; 

create table t_source 

(cust_id int, 

amount decimal(10 , 2 ), 
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quantity int, 
dt date); 


-- ¥ 100 条 数据 

insert into t source (cust id,amount,quantity,dt) values 
(567,1100.51,2,'2017-07-20'), (568,2003.47,2,'2017-07-20'), 
(569,297.91,2,'2017-07-14'),(570,300.02,2,'2017-07-12"), 
(663,954.77,2,'2017-06-27'), (664,6006.78,3,'2017-06-22') , 
(665,25755.7,2,'2017-06-06'), (666,60201.48,2,'2017-07-11'); 


3. 数据 预 处 理 


CD 将 最 近 一 次 访问 日 期 处 理 成 最 近 一 次 访问 日 期 到 当前 日 期 的 间隔 天 数 ， 代 表 该 用 户 
是 否 最 近 有 购买 记录 〈 即 目前 是 否 活跃 ) 。 


(2) 因为 k-means 受 异 常 值 影响 很 大 ， 并 且 金 额 变异 比较 大 ， 所 以 去 除 该 维度 的 异常 值 。 
(3) 使 用 PCA 方法 消除 维度 之 间 的 相关 性 。 
(4) 0-1 归 一 化 处 理 。 


-- 去 掉 异 常 值 

drop table if exists t_source_change; 
create table t source change 

(row id serial, 

cust id int, 

amount decimal(10 , 2 ), 

quantity int, 

dt int); 


insert into t source change (cust id,amount,quantity,dt) 
select cust id, 


amount, 
quantity, 
current date-dt dt 
from t source 


where amount < (select percentile cont (0.99) within group (order by amount) 
from t source); 


select * from t source change order by cust id; 


查询 结果 为 : 
94 | 660 | 11594.24 | TOXIN 
95 1 661 | 12039.49 | 2 1 30 
96 | 662 | 1494.97 | 2) 3X) 
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En || 663 | 954-101 AA. || FAS} 

98 | 664 | 6006.78 | 311-30 

aadi 665 I t257595 70N] 2 | 46 
(99 rows) 


可 以 看 到 ， 因 为 cust_id=666 用 户 的 金额 不 在 99% HTH 





目 内 ， 所 以 t_source change 表 中 去 


掉 了 该 条 记录 。 在 此 去 除 异 常 并 非 这 个 用 户 异 常 , 而 是 为 了 改善 聚 类 结果 。 最 后 需要 给 这 些 “ 异 


常用 户 ” 做 业务 解释 。 
-- PCA 去 掉 相关 性 


drop table if exists mat; 
create table mat (id integer, 
row vec double precision[] ); 


insert into mat 
select row_id, 
string_to_array(amount||','||quantity||', 
row_vec 
from t source change; 


-- PCA 培训 


"| |dt,',"')::double precision[] 


drop table if exists result table, result table mean; 


select madlib.pca train('mat', 
'result table', 
'id', 
3 


-- source table 
-- output table 
-- row id of source table 
-- number of principal components 


); 


-- PCA HUE 
drop table if exists residual table, result summary table, out table; 
select madlib.pca project( 'mat', 
'result table', 
‘out table', 
'id', 
'residual table', 
'result summary table' 
) 7 
-- 0-1 归 一 化 
drop table if exists t source change nor; 
create table t source change nor 
as 
select row_id, 


string to array(amount nor|l','|l|quantity nor||','|l|dt nor, ',')::double 
precision[] row vec 
from 
( 
select row id, 


(row vec[1] 


- min amount)/(max amount - min amount) amount nor, 


(row vec[2] - min quantity)/(max quantity - min quantity) quantity nor, 
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(max dt - row vec[3])/(max dt - min dt) dt nor 
from out table, 

(select max(row_vec[1]) max_amount, 
min (row_vec[1]) min amount, 
max(row vec[2]) max quantity, 
min(row vec[2]) min quantity, 
max(row vec[3]) max dt, 
min(row vec[3]) min dt 

from out table) t) t; 


select * from t source change nor order by row id; 


查询 结果 为 : 


94 | {0.558470357737996,0.954872666162949, 0.296935710714377} 

95 | (0.54122257689463,0.482977156688704,0.81244230552888) 

96 | (0.949697477408967,0.385844448834949,0.65901807391295) 

97 | (0.970623648952883,0.62014760223173,0.704941708880569) 

98 | {0.774918367989914,0.513405499602443,0.666993533505089} 
99 | (0.00988267286683593,0.150872332720288,0.908966781310526) 

(99 rows) 


4. k-means RÆ 
(1) 调用 kmeanspp 函数 执行 聚 类 


drop table if exists km_result; 
create table km result as 
select * from madlib.kmeanspp 


( 't source change nor', -- 源 数据 表 名 
"row vec', -- 包含 数据 点 的 列 名 
-- 中 心 点 个 数 
'madlib.squared dist norm2',  -- 距离 函数 
'madlib.avg', -- 聚合 函数 
20, -- BARA 

0.001 -- 停止 迭代 条 件 ); 

\x on; 


select centroids[1][1]||', '|llcentroids[1][2]]|", '||centroids[1][3] cent1, 
centroids[2][1]1]|', '||centroids[2][2]1|', '||centroids[2][3] cent2, 
centroids[3][1]]|', '||centroids[3][2]]|', 'lIIcentroids[3][3] cent3, 

cluster variance, 

objective fn, 

frac reassigned, 

num_iterations 

from km_result; 


查询 结果 如 下 : 

-[ RECORD 1 ]----4------------------------------------------------ 
centi | 0.872433445942, 0.0724942318135, 0.318094096598 
cent2 | 0.890144445443, 0.546835465582, 0.333554735766 
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cent3 | 0.238390106949, 0.449997152636, 0.267439867941 
cluster variance | {1.33448519773,2.05461238207,1.83212942768} 

objective fn | 5.22122700748 

frac reassigned | 0 

num iterations [I is 


(2) 调用 simple silhouette 函数 评价 聚 类 质量 


select * from madlib.simple silhouette 
( 't source change nor', 
'row vec', 
(select centroids 
from madlib.kmeanspp('t source change nor', 
'row vec', 
3, 
'madlib.squared dist norm2', 
'madlib.avg', 
20, 
0.001)), 


'madlib.dist norm2' ); 
结果 如 下 : 


-[ RECORD 1 ]----- 4------------------ 
simple silhouette | 0.640471849127657 


(3) 调用 closest column 函数 执行 簇 分 配 


Nx Of; 


select cluster id, 
round (count (cust id)/99.0,4) pct, 
round (avg(amount),4) avg amount, 
round (avg (quantity),4) avg quantity, 
round (avg(dt),2) avg dt 
from 
( 
select t2.*, 
(madlib.closest column(centroids, row vec)).column id as cluster id 
from t source change nor as tl, km result, t source change t2 
where tl.row id - t2.row id) t 
group by cluster id; 








查询 结果 为 : 
cluster id | pct | avg amount | avg quantity | avg dt 
Boe E 
2 1 0:1919 | 5439.9795 1 2.0526 | 48.79 
1 | 0.4848 | 3447.5631 | 2.4379 | 29.56 
0 | 0.3232 | 5586.0203 | 4.0313 | 5.56 


(3 rows) 
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5. 解释 聚 类 结果 
表 23-1 对 聚 类 结果 分 成 的 三 类 用 户 进行 了 说 明 。 
表 23-1 聚 类 形成 的 三 类 用 户 


类 别 占 比 描述 

第 一 类 : 高 价值 用 户 32.3% | 购买 频率 高 (平均 4 次 ) ; 消费 金额 较 高 (平均 5586 元 ) ; 最 近 一 
周 有 过 购买 行为 ， 这 部 分 用 户 需要 大 力 发 展 

第 二 类 : 中 价值 用 户 48.5% | 购买 频率 中 等 平均 2.4 次 ) ;消费 金额 不 高 (平均 3447) ; 最 近 

一 个 月 有 个 别 购买 行为 ， 这 部 分 用 户 可 以 适当 诱导 购买 

购买 频率 一 般 (平均 2 次 ) ; 消费 金额 较 高 (平均 5439 元 ) ; 较 长 

时 间 没 有 购买 行为 ， 这 部 分 客户 需要 尽量 挽留 











第 三 类 : 高 价值 挽留 用 户 








23.5 ma 


聚 类 方法 是 根据 给 定 的 规则 进行 训练 , 自动 生成 类 别 的 数据 挖掘 方法 ,属于 无 监督 学 习 范 

畴 。 聚 类 已 经 被 应 用 在 模式 识别 、 数 据 分 析 、 图 像 处 理 、 市 场 研究 等 多 个 领域 。 虽 然 类 的 形式 

各 不 相同 ,但 一 般 都 用 距离 作为 类 的 度量 方法 。 聚 类 算法 有 很 多 种 ， 其 中 k-means 是 应 用 最 广 

泛 、 适 应 性 最 强 的 聚 类 算法 , 也 是 MADIib 唯一 支持 的 聚 类 算法 。MADlib 提供 了 4 个 k-means 

训练 函数 、 一 个 簇 分 配 函 数 、 一 个 轮廓 系数 函数 。 我 们 利用 MADIib 提供 的 这 些 函 数 ， 实 现 了 
-个 按照 REM 模型 对 用 户 进行 细 分 的 示例 需求 。 


537 





当 人 们 对 研究 对 象 的 内 在 特性 和 各 因素 间 的 关系 有 比较 充分 的 认识 时 , 一 般 用 机 理 分 析 方 
法 建立 数学 模型 。 如 果 由 于 客观 事物 内 部 规律 的 复杂 性 及 人 们 认识 程度 的 限制 , 无 法 分 析 实 际 
对 象 内 在 的 因果 关系 ,建立 合乎 机 理 规律 的 数学 模型 ， 那么 通常 的 办 法 是 搜集 大 量 数 据 , 基于 
对 数据 的 统计 分 析 建 立 模型 。 数 据 挖掘 正 是 这 种 处 理 数据 的 技术 , 本 章 将 讨论 数据 挖掘 中 用 途 
非常 广泛 的 一 类 方法 一 一 回归 方法 。 

MADIib 中 定义 了 丰富 的 回归 模型 ， 其 中 包括 聚 类 方差 、Cox 比例 风险 回归 、 弹 性 网 络 正 
则 化 、 广 义 线性 模型 、 线 性 回归 、 逻 辑 回归 、 边 际 效 应 、 多 项 式 回归 、 有 序 回归 、 稳 健 方差 等 ， 
它们 都 属于 有 监督 学 习 。 我 们 将 以 逻辑 回归 为 例 演示 MADIib 的 实现 ， 并 以 示例 说 明 MADIib 
逻辑 回归 函数 的 使 用 方法 。 





24.1 回归 方法 简介 


回归 指 研究 一 组 随机 变量 (yuy>…:yD) 和 另 一 组 Cerxz xb 变量 之 间 关系 的 统计 分 析 方 法 ， 
又 称 多 重 回归 分 析 。 通 常 前 者 叫做 因 变 量 ， 后 者 叫做 自 变量 。 事 物 之 间 的 关系 可 以 抽象 为 变量 
之 间 的 关系 。 变 量 之 间 的 关系 可 以 分 为 两 类 : 一 类 叫 确定 关系 ， 也 叫 函 数 关系 ， 其 特征 是 一 个 
变量 随 着 其 他 变量 的 确定 而 确定 。 另 一 类 关系 叫 相关 关系 , 变量 之 间 的 关系 很 难 用 一 种 精确 的 
方法 表示 出 来 。 例 如 , 通常 人 的 年 龄 越 大 血压 越 高 , 但 人 的 年 龄 和 血压 之 间 没 有 确定 的 数量 关 
系 , 人 的 年 龄 和 血压 之 间 的 关系 就 是 相关 关系 。 回 归 方法 是 处 理 变量 之 间 相关 关系 的 一 种 数学 
方法 。 其 解决 问题 的 大 致 方法 、 步 骤 如 下 : 


(1) 收集 一 组 包含 因 变 量 和 自 变量 的 数据 。 

(2) 选 定 因 变 量 和 自 变量 之 间 的 模型 ， 即 一 个 数学 定量 关系 式 ， 利 用 数据 按照 一 定 准则 
(如 最 小 二 乘法 ) 计算 模型 中 的 系数 。 

GO 利用 统计 分 析 方 法 对 不 同 的 模型 进行 比较 ， 找 出 效果 最 好 的 模型 。 

(4) 判断 得 到 的 模型 是 否 适合 于 这 组 数据 。 

C50 利用 模型 对 因 变量 做 出 预测 或 解释 。 
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回归 在 数据 挖掘 中 是 最 为 基础 的 方法 , 也 是 应 用 领域 和 应 用 场景 最 多 的 方法 , 只 要 是 量化 
型 问题 ， 一 般 都 会 先 尝试 用 回归 方法 来 研究 或 分 析 。 


24.2 Logistic 回归 


回归 分 析 中 ， 因 变量 y 可 能 有 两 种 情形 : CD y 是 一 个 定量 的 变量 ， 这 时 就 用 通常 的 回 
VA eR BOM y 进行 回归 ; (2) y 是 一 个 定性 的 变量 ， 比 如 y=0 BR 1, 这 时 就 不 能 用 通常 的 回归 函 
数 进行 回归 ， 而 是 使 用 所 谓 的 Logistic HIJA. Logistic 方法 主要 应 用 在 研究 某 些 现象 发 生 的 概 
率 P， 比 如 股票 涨 跌 、 公 司 成 败 的 概率 。Logistic 回归 模型 的 基本 形式 为 ; 
exp(Bo + fixi ++ + Bex) 
1 + exp(Bo + 1x1 + Byxy) 
其 中 ， Bo, Bry Ba 类 似 于 多 元 线性 回归 模型 中 的 回归 系数 。 该 式 表示 当 自 变量 为 
X1,X2,… Xk 时 ， 因 变量 P 为 1 的 概率 。 对 该 式 进 行 对 数 变 换 ， 可 得 : 
p 
1-p 
至 此 ， 我 们 会 发 现 ， 只 要 对 因 变 量 P 按照 In(p/(1-p)) 的 形式 进行 对 数 变换 ， 就 可 以 将 
Logistic 回归 问题 转化 为 线性 回归 问题 , 此 时 就 可 以 按照 多 元 线性 回归 的 方法 会 得 到 回归 参数 。 
但 对 于 定性 实践 , P 的 取 值 只 有 0 和 1 (二 分 类 ) ， 这 就 导致 In(p/(1-p)) 形式 失去 意义 。 为 此 ， 
在 实际 应 用 Logistic 模型 的 过 程 中 , 常常 不 是 直接 对 P 进行 回归 , 而 是 先 定义 一 种 单调 连续 的 
WET, $: 











PY = 1x1, x2, x4) = 


ln 





= Bo + Bix + + Brxk 





= P(Y = 1|x4,X2,...,X,~),0< 0 <1 
有 了 这 样 的 定义 ，Logistic 模型 就 可 变形 为 : 





In = Bo + bixi to t+ Bex, I< <1 


=r 
虽然 形式 相同 ， 但 此 时 的 下 为 连续 函数 。 然 后 只 需要 对 原始 数据 进行 合理 的 映射 处 理 ， 
就 可 以 用 线性 回归 方法 得 到 回归 系数 ,最 后 再 由 元 和 P 的 映射 关系 进行 反映 射 而 得 到 P 的 值 。 


2 4 .了 MADIib 的 Logistic 回归 相关 函数 

MADIib 中 的 二 分 类 Logistic 回归 模型 ， 对 双 值 因 变量 和 一 个 或 多 个 预测 变量 之 间 的 关系 
建 模 。 因 变量 可 以 是 布尔 值 , 或 者 是 可 以 用 布尔 表达 式 表 示 的 分 类 变量 。 在 该 模型 中 ， 训 练 函 
数 作 为 预测 变量 的 函数 ， 描 述 一 次 训练 可 能 结果 的 概率 。 
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1. 训练 函数 


COD 语法 


Logistic 回归 训练 函数 形式 如 下 : 


logregr train (source table, 
out table, 


dependent varname, 


(2) BR 


independent varname, 


grouping cols, 


max iter, 


optimizer, 


tolerance, 


verbose ) 


source table: TEXT 类 型 ， 包 含 训练 数据 的 表 名 。 
out table: TEXT 类 型 ， 包 含 输出 模型 的 表 名 。 由 Logistic 回归 训练 函数 生成 的 输出 表 如 


表 24-1 所 示 。 


表 24-1 logregr train 函数 输出 表 列 


列 名 [数据 类 型 | 描述 

















ows skipped 





<> TEXT 分 组 列 ， 取 决 于 grouping col 输入， 可 能 是 多 个 列 

Coef FLOATS[] | 回归 系数 向 量 

log likelihood | FLOATS — | 对 数 似 然 比 Ke) 

std_err FLOATS[] | 系数 的 标准 方差 向 量 

z_stats FLOATS[] | 系数 的 z- 统 计量 向 量 

p values FLOATS[] | 系数 的 P 值 向 量 

odds_ratios FLOATS[] 比值 比 exp(ci) 

condition no | FLOATS | X*X 矩阵 的 条 件数 。 高 条 件数 说 明 结果 中 的 一 些 数值 不 稳定 ， 产 生 的 模型 不 
可 靠 。 这 通常 是 由 于 底层 设计 和 矩阵 中 有 相当 多 的 共 线 性 造成 的 ， 在 这 种 情况 
下 可 能 更 适合 使 用 其 他 回归 技术 

num iterations | INTEGER | 实际 迭代 次 数 。 如 果 提 供 了 tolerance 参数 ， 并 且 算 法 在 所 有 和 迭代 完成 之 前 收 
敛 ， 此 列 的 值 将 会 与 max iter 参数 的 值 不 同 

num_rows pro | INTEGER | 实际 处 理 的 行 数 ， 等 于 源 表 中 的 行 数 减 去 跳 过 的 行 数 

cessed 

num missing r | INTEGER | 训练 时 跳 过 的 行 数 。 如 果 自 变量 名 是 NULL 或 者 包含 NULL 值 ， 则 该 行 被 


跳 过 





训练 函数 在 产 9 


24-2 所 示 。 
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E 输 出 表 的 同时 ， 还 会 创建 一 个 名 为 <out_table>_summary 的 概要 表 ， 如 表 
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表 24-2 logregr train 函数 输出 概要 表 列 

















num all groups 





max iter-..., tolerance=...” 


INTEGER | Hi Logistic 模型 拟 合 了 多 少 组 数据 


列 名 数据 类 型 | 描述 

source table TEXT 源 数据 表 名 称 

out table TEXT 输出 表 名 

dependent vamame TEXT 因 变 量 名 

independent_varname TEXT 自 变 量 名 

optimizer_params TEXT 包含 所 有 优化 参数 的 字符 串 ， 形 式 是 “ optimizer=..., 





num_failed_groups 


INTEGER | 有 多 少 组 拟 合 过 程 失败 














num rows processed INTEGER | 用 于 计算 的 总 行 数 
num_missing rows_ski INTEGER | 跳 过 的 总 行 数 








dependent_varname: TEXT 类 型 ， 训 练 数据 中 因 变 量 列 的 名 称 (BOOLEAN 兼容 类 型 ) ， 


或 者 一 个 布尔 表达 式 。 


independent_varname: TEXT 类 型 ， 评 估 使 用 的 自 变量 的 表达 式 列表 ， 一 般 显 式 地 由 包括 


-个 常数 1 项 的 自 变量 列表 提供 。 


grouping_cols( 可 选 ) : TEXT 类 型 ， 默 认 值 为 NULL。 和 SQL 中 的 “GROUP BY" 25 
似 ， 是 一 个 将 输入 数据 集 分 成 离散 组 的 表达 式 ， 每 个 组 运行 一 个 回归 。 此 值 为 NULL 时 ， 将 


不 使 用 分 组 ， 并 产生 一 个 单一 的 结果 模型 。 


max iter (可 选 ) : INTEGER 类 型 ， 默 认 值 为 20， 指 定 允 许 的 最 大 迭代 次 数 。 
optimizer CHE) : TEXT 类 型 ， 默 认 值 为 "irs! ， 指 定 所 使 用 的 优化 器 的 名 称 : 


€ ‘newton’ 或 'irls': 加 权 迭 代 最 小 二 乘 。 
€ 'cg' BRE. 
€ 'igd: 梯度 下 降 法 。 


tolerance 〈 可 选 ) : FLOATS 类 型 ， 默 认 值 为 0.0001， 连 续 的 迭代 次 数 的 对 数 似 然 值 之 间 
的 差异 。 零 不 能 作为 收敛 准则 ， 因 此 当 连 续 两 次 的 迭代 差异 小 于 此 值 时 停止 执行 。 
verbose (可 选 ) : 默认 值 为 FALSE， 指 定 是 否 提供 训练 的 详细 输出 结果 。 


2. 预测 函数 
(1) 语法 


MADlib 提供 了 两 个 预测 函数 ， 预 测 因 变量 的 布尔 值 ， 或 预测 因 变量 是 “ 真 ”的 概率 值 。 


两 个 函数 语法 相同 。 预 测 因 变量 的 布尔 值 的 函数 : 
logregr predict (coefficients, ind var) 
预测 因 变量 是 “ 真 ” 的 概率 值 的 函数 : 


logregr_predict_prob(coefficients, ind var) 


QD 参数 
coefficients: DOUBLE PRECISION[] 类 型 ， 来 自 logregr_train() 的 模型 系数 。 
ind var: 自 变量 构成 的 DOUBLE 数组 ， 其 长 度 应 该 与 调用 logregr traino žo, 
independent_varname 参数 所 赋值 的 数组 相同 。 

















Logistic 回归 示例 


1. 问题 提出 

企业 到 金融 商业 机 构 贷 款 , 金融 商业 机 构 需 要 对 企业 进行 评估 。 设 评估 结果 为 0 或 1 两 种 
形式 ，0 表示 企业 两 年 后 破产 ， 将 拒绝 贷款 ， 而 1 表示 企业 两 年 后 具备 还 款 能 力 ， 可 以 贷款 。 
在 表 24-3 中 ， 已 知 20 家 企业 (编号 1 ~ 20) 的 三 项 评价 指标 值 和 评估 结果 ， 试 建立 模型 对 其 
他 5 家 企业 (编号 21-250 进行 评估 。 


表 24-3 ”企业 还 款 能 力 评价 表 






































企业 编号 X1 

1 -62.8 
2 33 

3 -120.8 
4 -18.1 
5 -3.8 

6 -612 
7 -20.3 
8 -194.5 
9 20.8 
10 -106.1 
11 43.0 
12 47.0 
13 -3.3 
14 35.0 
15 46.7 
16 20.8 
17 33.0 
18 26.1 
19 68.6 
20 37.3 
21 -492 
22 -192 
23 40.6 
24 34.6 
25 19:9 
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对 于 该 问题 , 很 明显 可 以 用 Logistic 模型 来 求解 ， 己 知 的 三 项 评价 指标 为 自 变 量 ， 能 否 贷 
款 的 评价 结果 是 因 变 量 。 我 们 可 以 调用 madlib.logregr_train 函数 ， 用 已 知 的 20 条 数据 进行 训 
练 ， 然 后 调用 madliblogregr predict 函数 对 其 他 5 条 数据 执行 预测 ， 还 可 以 用 
madlib.logregr predict prob 函数 得 到 预测 值 为 “ 真 ” 的 概率 。 

2. 建立 测试 数据 表 并 装载 原始 数据 

通常 训练 数据 与 被 预测 数据 是 不 同 的 数据 集合 ， 因 此 这 里 分 别 建立 两 个 表 。 


drop table if exists source data; 





create table source data 
(id integer not null, x1 float8, x2 float8, x3 float8, y int); 


copy source data from stdin with delimiter '|'; 





T =62:8 | 299254] abs || 0 
2 Jaci ll 327528 eal. | 0 
3 -120.8 | =103:2 | 2:52] 0 
4 usa | -28.8 | abes |] 0 
5 =3.8 | =50.6 || oou 0 
6 =61.2 | =56.2 | abemus) 0 
1i 220-542] =17.4 | T 0 
8 =194.5 || ze || 0.5 | 0 
9 20.8 | -4.3 | "Tom 0 
LOM = 06d) || 522298] LS 0 
ek {| 43: 16.4 | 3b Ih 1 
alee || 47 | als. || 1.9 | if 
13 || oou 4 | 258 i 
14 | 35 1 20.8 | 29 1 
allsy || 46 | 12.6 | 0.9 | i 
Gia 20.8 UATE || 2.4 | i 
a || 33 23.6 | 1.5: 1 
18 | 26.1 | 10.4 | 274] al 
aer p 68.6 | 13.8 | 1.6 | al 
20 | Steet || 33.4 | 39 || T 
We 


drop table if exists source data predict; 
create table source data predict 
(id integer not null, x1 float8, x2 float8, x3 float8, y int); 


copy source data predict from stdin with delimiter '|' NULL AS ''; 


21 | =49.2 | z17:24[ 0.3 I 
zm |) e) =36.7 || 0.8 I 
231 40.6 | 5.8 I 1.8 | 
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Post; 


24 | 34-6 | 26.4 | 1:8 [ 
25 19:9; 1 2627) i 223] 
NS 


3. 训练 回归 模型 


drop table if exists loan_logregr, loan_logregr_summary; 
select madlib.logregr train ("source data', 

'loan logregr', 

ys 

'array[1, xl, x2, x3]', 

null, 

20, 


"rS 


注意 本 例 中 我 们 从 列 名 动态 创建 自 变量 数组 。 如 果 自 变量 的 数目 很 大 ， 以 至 于 超过 了 
greSQL 对 于 每 个 表 中 最 多 列 数 的 限制 时 (一 个 表 中 的 列 不 能 超过 1600 个 ,这 是 个 硬 限制 )， 


应 该 建立 自 变量 数组 ， 并 存储 于 一 个 单一 列 中 。 
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4. 查看 回归 结果 


dm=# \x off 
Expanded display is off. 
dm=# select round(unnest (coef) ::numeric,4) as coefficient, 


dm-# round (unnest (std err)::numeric,4) as standard error, 
dm-# round (unnest (z_stats)::numeric,4) as z stat, 
dm-# round (unnest (p_values)::numeric,4) as pvalue, 
dm-# round (unnest (odds_ratios)::numeric,4) as odds ratio 


dm-# from loan logregr; 
coefficient | standard error | z stat | pvalue | odds ratio 





apes 
-20.3054 | 1101.1738 | -0.0184 | 0.9853 | 0.0000 
0.1347 | 24.8599 | 0.0054 | 0.9957 | 1.1442 
1.2877 | 49.3232 ||) 0.0261. | 0:9792] 3.6243 
10.7682 | 581.7361 | 0.0185 | 0.9852 | 47486.3813 
(4 rows) 
5. 使 用 Logistic 回归 预测 因 变 量 
dm=# \x off 


Expanded display is off. 
dm=# select p.id, madlib.logregr predict (coef, array[1, xl, x2, x3]) 


dm-# from source data predict p, loan logregr m 
dm-# order by p.id; 
id | logregr predict 





Zs 





Em gm 
250) t 
24 | t 
Zi) || 48 
(5 rows) 


预测 的 结果 是 21、22 两 家 企业 应 拒绝 贷款 ， 其 他 三 家 企业 可 以 贷款 。 
6. 预测 因 变 量 为 “ 真 ”的 概率 


dm=# \x off 

Expanded display is off. 

dm=# select p.id, madlib.logregr predict prob(coef, array[1, xl, x2, x3]) 
dm-# from source data predict p, loan logregr m 

dm-# order by p.id; 

id | logregr predict prob 

之 

21 | 1.22296014464276e-20 

22 | 1.88777536644339e-27 


23) 0.999993946936041 
24 | Hm 
25 | il 

(5 rows) 


21、22 为 “ 真 ”的 概率 几乎 为 0， 其 他 三 个 为 “ 真 ” 的 概率 为 1。 
7. 在 训练 数据 上 执行 预测 函数 


dm=# \x off 

Expanded display is off. 

dm=# select p.id, madlib.logregr predict(coef, array[1, xl, x2, x3]), p.y 
dm-# from source data p, loan logregr m 

dm-# order by p.id; 

id | logregr predict | y 
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12 | 
13 || 
348 
35 |j 
16 | 
aly? || 
18 | 
19 | 
20 E 

(20 rows) 


可 以 看 到 ，Logistic 模型 预测 的 结果 与 训练 数据 完全 一 致 。 
实际 应 用 中 ， 以 下 因素 对 Logistic 回归 分 析 预 测 模型 的 可 靠 性 有 较 大 影响 : 


e 样本 量 问 题 


Logistic 回归 分 析 中 ， 到 底 样本 量 多 大 才 算 够 ， 这 一 直 是 个 令 许 多 人 困惑 的 问题 。 尽 管 有 
人 从 理论 角度 提出 了 Logistic 回归 分 析 中 的 样本 含量 估计 ， 但 从 使 用 角度 来 看 多 数 并 不 现实 。 
直到 现在 ， 这 一 问题 尚 无 广 为 接 受 的 答案 。 一 般 认为 ， 如 果 样 本 量 小 于 100, Logistic 回归 的 
最 大 似 然 估计 可 能 有 一 定 的 风险 , 如 果 大 于 500 则 显得 比较 充足 。 当 然 , 样本 大 小 还 依赖 于 变 
量 个 数 、 数 据 结构 等 条 件 。 每 一 个 自 变量 至 少 要 10 例 结 局 保证 估计 的 可 靠 性 。 注 意 : 这 里 是 
结局 例 数 ， 而 不 是 整个 样本 例 数 。 

© ”混杂 因素 的 影响 

混杂 因素 一 般 可 以 通过 三 个 方面 确定 : 一 是 该 因素 对 结局 有 影响 ; 二 是 该 因素 在 分 析 因 素 
中 的 分 布 不 均衡 ; 三 是 从 专业 角度 来 判断 ， 该 因素 是 分 析 因 素 与 结局 中 间 的 一 个 环节 。 也 就 是 
说 ， 分 析 因 素 引起 该 因素 ， 通 过 该 因素 再 引起 结局 。 


e ”交互 作用 的 影响 


交互 作用 有 时 也 叫 效应 修饰 ， 是 指 在 该 因素 的 不 同 水 平 〈 不 同 取 值 ) ， 分 析 因 素 与 结局 的 
关联 大 小 有 所 不 同 。 在 某 一 水 平 上 《如 取 值 为 0) 可 能 分 析 因素 对 结局 的 效应 大 ， 而 在 另 一 个 
水 平 上 (如 取 值 为 1) 可 能 效应 小 。 


24.5 小 结 


回归 是 重要 的 数据 挖掘 方法 之 一 。MADlib 提供 了 多 种 回归 模型 ， 本 章 主要 讨论 了 其 中 的 
逻辑 回归 方法 , 并 用 一 个 企业 贷款 评估 的 例子 , 演示 了 如 何 使 用 MADlib 的 逻辑 回归 函数 进行 
预测 。 逻 辑 回 归 方 法 主要 应 用 在 预测 某 些 现 象 发 生 的 概率 。 
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分 类 是 一 种 重要 的 数据 挖掘 技术 。 分 类 的 目的 是 根据 数据 集 的 特点 构造 一 个 分 类 函数 或 分 
类 模型 (也 常常 称 作 分 类 器 ) ， 该 模型 能 把 未 知 类 别 的 样本 映射 到 给 定 的 类 别 中 。 分 类 方法 是 
解决 分 类 问题 的 方法 ， 是 数据 挖掘 、 机 器 学 习 和 模式 识别 中 一 个 重要 的 研究 领域 。 分 类 算法 通 
过 对 已 知 类 别 训练 集 的 分 析 ， 从 中 发 现 分 类 规则 ， 以 此 预测 新 数据 的 类 别 。 分 类 算法 的 应 用 非 
常 广泛 ， 包括 风险 评估 、 客 户 分 类 、 文 本 检索 等 。 本 章 介绍 分 类 的 基本 概念 、MADlib 的 决策 
树 分 类 模型 及 应 用 示例 。 


25.1 分 类 方法 简介 


1. 分 类 的 概念 


数据 挖掘 中 分 类 的 目的 是 学 会 一 个 分 类 函数 或 分 类 模型 , 该 模型 能 把 数据 库 中 的 数据 项 映 
射 到 给 定 类 别 中 的 某 一 个 。 分 类 可 描述 如 下 : 输入 数据 ， 或 称 训练 集 (Training Set) ， 是 由 一 
条 条 数据 库 记 录 (Record) 组 成 的 。 每 一 条 记录 包含 若干 个 属性 〈Attribute) ， 组 成 一 个 特征 
向 量 。 训 练 集 的 每 条 记录 还 有 一 个 特定 的 类 标签 (Class Label) 与 之 对 应 。 该 类 标签 是 系统 的 
输入 , 通常 是 以 往 的 一 些 经 验 数据 。 一 个 具体 样本 的 形式 可 为 样本 向 量 : (v1,v2,…,vn;c)， 在 这 
里 vi 表示 字段 值 ,c 表示 类 别 。 分 类 的 目的 是 : 分 析 输入 数据 ， 通 过 在 训练 集中 的 数据 表现 出 
来 的 特征 , 为 每 一 个 类 找到 一 种 准确 的 描述 或 模型 。 由 此 生成 的 类 描述 用 来 对 未 来 的 测试 数据 
进行 分 类 。 尽 管 这 些 测试 数据 的 类 标签 是 未 知 的 ， 我 们 仍 可 以 由 此 预测 这 些 新 数据 所 属 的 类 。 
注意 是 预测 ， 而 不 是 肯定 ， 因 为 分 类 的 准确 率 不 能 达到 百分之百 。 我 们 也 可 以 由 此 对 数据 中 的 
每 一 个 类 有 更 好 的 理解 。 也 就 是 说 : 我 们 获得 了 对 这 个 类 的 知识 。 

PRUE (Classification) 也 可 以 定义 为 : 对 现 有 的 数据 进行 学 习 ， 得 到 一 个 目标 函数 或 
规则 ， 把 每 个 属性 集 x 映射 到 一 个 预先 定义 的 类 标号 y。 目 标 函 数 或 规则 也 叫 分 类 模型 
(Classification Model) ， 它 有 两 个 主要 作用 : 一 是 描述 性 建 模 ， 即 作为 解释 性 工具 ， 用 于 区 
分 不 同类 的 对 象 ， 二 是 预测 性 建 模 ， 即 用 于 预测 未 知 记录 的 类 标号 。 


2. 分 类 的 原理 
分 类 方法 是 一 种 根据 输入 数据 建立 分 类 模型 的 系统 方法 , 这 些 方法 都 是 使 用 一 种 学 习 算法 





(Learning Algorithm) 确定 分 类 模型 ， 使 该 模型 能 够 很 好 地 拟 合 输入 数据 中 类 标号 和 属性 集 
之 间 的 联系 。 学 习 算 法 得 到 的 模型 不 仅 要 很 好 地 拟 合 输入 数据 , 还 要 能 够 正确 地 预测 未 知 样本 
的 类 标号 。 因 此 ,训练 算法 的 主要 目标 就 是 建立 具有 很 好 泛 化 能 力 的 模型 ， 即 建立 能 够 准确 预 
测 未 知 样本 类 标号 的 模型 。 图 25-1 展示 了 解决 分 类 问题 的 一 般 方 法 。 首先 ， 需 要 一 个 训练 集 ， 
它 由 类 标号 已 知 的 记录 组 成 。 使 用 训练 集 建立 分 类 模型 ， 该 模型 随后 将 运用 于 检验 集 (Test 
Set) ， 检 验 集 由 类 标号 未 知 的 记录 组 成 。 





图 25-1 分 类 原理 示意 图 

通常 分 类 学 习 所 获得 的 模型 可 以 表示 为 分 类 规则 形式 、 决 策 树 形式 或 数学 公式 形式 .例如 ， 
给 定 一 个 顾客 信用 信息 数据 库 , 通 过 学 习 所 获得 的 分 类 规则 可 用 于 识别 顾客 是 否 具有 良好 的 信 
用 等 级 或 一 般 的 信用 等 级 。 分 类 规则 也 可 用 于 对 今后 未 知 所 属 类 别 的 数据 进行 识别 判断 ,同时 
还 可 以 帮助 了 解数 据 库 中 的 内 容 。 

构造 模型 的 过 程 一 般 分 为 训练 和 测试 两 个 阶段 。 在 构造 模型 之 前 ， 要 求 将 数据 集 随 机 地 分 为 
训练 数据 集 和 测试 数据 集 。 在 训练 阶段 ， 使 用 训练 数据 集 ， 通 过 分 析 由 属性 描述 的 数据 库 元 组 来 
构造 模型 ， 假 定 每 个 元 组 属于 一 个 预定 义 的 类 ， 由 一 个 称 作 类 标号 的 属性 来 确定 。 训 练 数 据 集中 
的 单个 元 组 也 称 作 训练 样本 。 由 于 提供 了 每 个 训练 样本 的 类 标号 , 该 阶段 也 被 称 为 有 指导 的 学 习 。 
在 测试 阶段 ， 使 用 测试 数据 集 来 评估 模型 的 分 类 准确 率 ， 如 果 认 为 模型 的 准确 率 可 以 接受 ， 就 可 
以 用 该 模型 对 其 他 数据 元 组 进行 分 类 。 一 般 来 说 ， 测 试 阶段 的 代价 远 远 低 于 训练 阶段 。 

为 了 提高 分 类 的 准确 性 、 有 效 性 和 可 伸缩 性 , 在 进行 分 类 之 前 , 通常 要 对 数据 进行 预 处 理 ， 
包括 : 


COD 数据 清理 。 其 目的 是 消除 或 减少 数据 噪声 ， 处 理 空缺 值 。 

(2) 相关 性 分 析 。 由 于 数据 集中 的 许多 属性 可 能 与 分 类 任务 不 相关 ， 若 包含 这 些 属 性 可 
能 会 减 慢 或 误导 学 习 过 程 。 相 关 性 分 析 的 目的 就 是 删除 这 些 不 相关 或 元 余 的 属性 。 

(3) 数据 变换 。 数 据 可 以 概 化 到 较 高 层 概念 。 比 如 ， 连 续 值 属性 “收入 ”的 数值 可 以 概 
化 为 离散 值 : 低 、 中 、 高 。 又 比如 ， 标 称 值 属性 “市 ”可 以 概 化 到 高 层 概念 “省 ”。 此 外 ， 数 
据 也 可 以 规范 化 ， 规 范 化 将 给 定 属性 的 值 按 比 例 缩 放 ， 落 入 较 小 的 区 间 ， 比 如 [0.1] 等 。 


548 


25.2 zm 


常用 的 分 类 方法 有 K- 邻 近 、 贝 叶 斯 、 神 经 网 络 、 逻 辑 分 类 、 判 别 分 析 、 支 持 向 量 机 、 决 
策 树 七 种 。 下 面 主要 介绍 决策 树 方法 的 基本 概念 和 原理 。 


25.2.1 决策 树 的 基本 概念 


决策 树 (Decision Tree) 又 叫 分 类 树 〈Classification Tree) ， 是 使 用 最 为 广泛 的 归纳 推理 
算法 之 一 ， 处 理 类 别 型 或 连续 型 变量 的 分 类 预测 问题 ， 可 以 用 图 形 或 if-then 的 规则 表示 模型 ， 
可 读 性 较 高 。 决 策 树 模型 通过 不 断 地 划分 数据 , 使 因 变 量 的 差别 最 大 , 最 终 目 的 是 将 数据 分 类 
到 不 同 的 组 织 或 不 同 的 分 枝 ， 在 因 变 量 的 值 上 建立 最 强 的 归 类 。 

决策 树 是 一 种 监督 式 的 学 习 方 法 , 产生 一 种 类 似 流程 图 的 树 结构 (可 以 是 二 又 树 或 非 二 叉 
树 ) 。 其 每 个 非 叶 节 点 表示 一 个 特征 属性 上 的 测试 ， 每 个 分 支 代表 这 个 特征 属性 在 某 个 值 域 上 
的 输出 ,而 每 个 叶 节 点 存放 一 个 类 别 。 使 用 决策 树 进行 决策 的 过 程 就 是 从 根 节点 开始 , 测试 待 
分 类 项 中 相应 的 特征 属性 ， 并 按照 其 值 选择 输出 分 支 ， 直到 到 达 叶 子 节点 , 将 叶子 节点 存放 的 
类 别 作为 决策 结果 。 


25.2.2 决策 树 的 构建 步骤 


决策 树 构建 的 主要 步骤 有 三 个 : 第 一 是 选择 适当 的 算法 训练 样本 构建 决策 树 , 第 二 是 适当 
的 修剪 决策 树 ， 第 三 则 是 从 决策 树 中 茶 取 知识 规则 。 


1. 决策 树 的 分 割 


决策 树 是 通过 递归 分 割 (Recursive Partitioning) 建立 而 成 , 递归 分 割 是 一 种 把 数据 分 割 成 
不 同 大 小 的 部 分 的 迭代 过 程 。 构 建 决策 树 的 归纳 算法 如 下 : 


(1) 将 训练 样本 的 原始 数据 放 入 决策 树 的 树 根 。 

(2) 将 原始 数据 分 成 两 组 ， 一 部 分 为 训练 数据 ， 另 一 部 分 为 测试 组 资料 。 

G) 使 用 训练 样本 来 建立 决策 树 ， 在 每 一 个 内 部 节点 以 信息 论 作为 选择 哪 一 个 属性 继续 
做 分 隔 的 依据 。 

(4) 使 用 测试 数据 来 进行 决策 树 修剪 ， 修 前 到 决策 树 的 每 个 分 类 都 只 有 一 个 节点 ， 以 提 
升 预测 能 力 与 速度 。 也 就 是 经 过 节点 分 割 后 ， 判 断 这些 内 部 节点 是 否 为 树叶 节点 ， 如 果 不 是 ， 
则 以 新 内 部 节点 为 分 枝 的 树 根来 建立 新 的 次 分 枝 。 

(5) 不 断 递归 第 〈1) 至 第 (D 步 ， 一 直到 所 有 内 部 节点 都 是 树叶 节点 为 止 。 当 决策 树 
完成 分 类 后 ， 可 将 每 个 分 枝 的 树叶 节点 萃取 为 知识 规则 。 


如 果 有 以 下 情况 发 生 ， 决 策 树 将 停止 分 割 : 


(1) 训练 数据 的 每 一 笔 数 据 都 已 经 归 类 到 同一 类 别 。 
(2) 训练 数据 已 经 没有 办 法 再 找到 新 的 属性 来 进行 节点 分 割 。 
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(3) 训练 数据 已 经 没有 任何 尚未 处 理 的 数据 。 

2. RRM ATES 

在 实际 构造 决策 树 时 , 大 都 要 进行 剪 枝 , 这 是 为 了 处 理由 于 数据 中 的 噪声 和 离 群 点 导致 的 
过 分 拟 合 问题 。 剪 枝 有 两 种 方法 : 先 剪 枝 一 在 构造 过 程 中 ， 当 某 个 节点 满足 剪 枝条 件 ， 则 直 
接 停止 此 分 支 的 构造 ; 后 剪 枝 一 一 先 构 造 完成 完整 的 决策 树 ,再 通过 某 些 条 件 遍 历 树 进行 剪 枝 。 
也 可 以 交叉 使 用 先 剪 枝 和 后 剪 枝 形成 组 合式 ,后 剪 枝 所 需 的 计算 比 先 剪 枝 多 , 但 通常 会 产生 较 
为 可 靠 的 决策 树 。 

3. 决策 树 算法 

决策 树 算法 基本 上 是 一 种 贪心 算法 , 采取 由 上 至 下 的 逐次 搜索 方式 , 渐次 产生 决策 树 模型 
结构 。 划 分 数据 集 的 最 大 原则 是 : 使 无 序 的 数据 变 得 有 序 。 如果 一 个 训练 数据 中 有 20 个 特征 ， 
那么 选取 哪个 作为 划分 依据 ? 这 时 必须 采用 量化 的 方法 来 判断 , 常用 的 量化 划分 方法 是 “信息 
论 度量 信息 分 类 ”基于 信息 论 的 决策 树 算法 有 ID3、C4.5 和 CART 等 算法 ,其 中 C4.5 和 CART 
两 种 算法 从 ID3 算法 中 衍生 而 来 。 

C4.5 和 CART 支持 数据 特征 为 连续 分 布 时 的 处 理 ， 主 要 通过 使 用 二 元 切 分 来 处 理 连续 型 
变量 ， 即 求 一 个 特定 的 值 一 一 分 裂 值 : 特征 值 大 于 分 裂 值 就 走 左 子 树 ， 和 否则 就 走 右 子 树 。 这 个 
分 裂 值 的 选取 原则 是 使 得 划分 后 的 子 树 中 的 “混乱 程度 ”降低 ， 有 具体 到 C4.5 和 CART 算法 则 
有 不 同 的 定义 方式 。 

ID3 算法 由 Ross Quinlan 发 明 ， 建 立 在 “ 奥 卡 姆 剃刀 ”的 基础 上 : 越 是 小 型 的 决策 树 越 优 
于 大 的 决策 树 (be simple 简单 理论 ) 。ID3 算法 中 根据 信息 论 的 信息 增益 评估 和 选择 特征 ， 每 
次 选择 信息 增益 最 大 的 特征 做 判断 属性 。ID3 算法 可 用 于 划分 标 称 型 数据 集 , 没有 剪 枝 的 过 程 ， 
为 了 去 除 过 度数 据 匹 配 的 问题 , 可 通过 裁剪 合并 相 邻 的 无 法 产生 大 量 信息 增益 的 叶子 节点 ( 例 
如 设置 信息 增益 阀 值 )。 使 用 信息 增益 有 一 个 缺点 ， 那 就 是 它 偏 向 于 具有 大 量 值 的 属性 ， 就 是 
说 在 训练 集中 , 某 个 属性 所 取 的 不 同 值 的 个 数 越 多 ,那么 越 有 可 能 拿 它 来 作为 分 裂 属性 ,而 这 
样 做 有 时 候 是 没有 意义 的 ， 最 典型 的 就 是 自 增 ID 序列 。 另 外 ID3 不 能 处 理 连续 分 布 的 数据 特 
征 ， 于 是 就 有 了 C4.5 算法 。 

C4.5 是 ID3 的 一 个 改进 算法 ， 它 继承 了 ID3 算法 的 优点 。C4.5 算法 用 信息 增益 率 来 选择 
属性 ,克服 了 用 信息 增益 选择 属性 时 偏向 选择 取 值 多 的 属性 的 不 足 , 在 树 构造 过 程 中 进行 剪 枝 ; 
能 够 完成 对 连续 属性 的 离散 化 处 理 ， 也 能 对 不 完整 数据 进行 处 理 。C4.5 算法 产生 的 分 类 规则 
易于 理解 、 准 确 率 较 高 ， 但 效率 低 ， 因 树 构 造 过 程 中 ,需要 对 数据 集 进 行 多 次 的 顺序 扫描 和 排 
序 。 也 是 因为 必须 多 次 数据 集 扫描 ，C4.5 只 适合 于 能 够 驻 留 于 内 存 的 数据 集 。 

CART 算法 的 全 称 是 Classification And Regression Tree, 采用 的 是 Gini 指数 ( 选 Gini 指数 
最 小 的 特征 s). 作为 分 裂 标准 ， 同 时 它 也 包含 后 剪 枝 操作 。ID3 算法 和 C4.5 算法 虽然 在 对 训练 
样本 集 的 学 习 中 可 以 尽 可 能 多 地 挖掘 信息 , 但 其 生成 的 决策 树 分 支 较 大 。 为 了 简化 决策 树 的 规 
模 ， 提 高 生成 决策 树 的 效率 ， 就 出 现 了 根据 Gini 系数 来 选择 测试 属性 的 决策 树 算法 CART。 
MADIib 中 的 决策 树 训练 函数 使 用 的 就 是 CART 算法 。 
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MADIib 的 决策 树 相 关 函 数 


MADIib 中 有 三 个 决策 树 函 数 ， 分 别 为 训练 函数 、 预 测 函数 和 显示 函数 。 训 练 函数 接收 输 


入 的 训练 数据 进行 学 习 , 生成 决策 树 模 型 。 预 测 函 数 用 训练 函数 生成 的 决策 树 模型 预测 数据 的 
所 属 分 类 。 显 示 函 数 用 来 显示 决策 树 模型 。 


1. 训练 函数 


(OD 语法 


tree train 


( training table name, 


output table name, 
id col name, 
dependent variable, 
list of features, 
list of features to exclude, 
split criterion, 
grouping cols, 
weights, 

max depth, 

min split, 

min bucket, 

num splits, 
pruning params, 
surrogate params, 
verbosity ) 


(2) 参数 


training table name: TEXT 类 型 ， 训 练 数 据 输 入 表 名 。 
output table name: TEXT 类 型 ， 包 含 决策 树 模型 的 输出 表 名 ， 如 果 表 已 经 存在 则 报错 。 


训练 函数 生成 的 模型 表 如 表 25-1 所 示 。 


表 25-1 tree train 函数 输出 模型 表 列 





tree 


列 名 数据 类 型 ”| 描述 


TEXT 当 提 供 了 grouping cols 入 参 时 ， 该 列 存储 分 组 列 ， 依 赖 于 grouping cols 
入 参 的 值 ， 可 能 有 多 列 ， 类 型 与 训练 表 相 同 


BYTEAS 二 进 制 格式 存储 的 决策 树 模型 


cat levels in text | TEXT[] 分 类 变量 的 层次 




















cat n levels INTEGER[] | 每 个 分 类 变量 的 层 号 

tree_depth INTEGER | 剪 枝 前 的 决策 树 最 大 深度 〈 根 的 深度 为 0) 

pruning_cp FLOATS] | 用 于 剪 枝 决 策 树 的 复杂 性 成 本 参数 。 如 果 使 用 交叉 验证 ， 该 值 应 与 
pruning_params 入 参 的 值 不 同 





551 








生成 模型 表 的 同时 还 会 生成 一 个 名 为 <model table» summary 的 概要 表 ， 如 表 25-2 所 示 。 
表 25-2 tree_train 函数 输出 概要 表 列 





























列 名 数据 类 型 描述 

method TEXT 值 为 tree train 

is_classification BOOLEAN | 用 于 分 类 时 为 TRUE， 用 于 回归 时 为 FALSE 

source_table TEXT GRA 

model_table TEXT 模型 表 名 

id_col_name TEXT ID 列 名 

dependent vamame TEXT 因 变 量 

independent_varname TEXT 自 变量 

cat_features TEXT 逗号 分 隔 字符 串 ， 分 类 特征 名 称 列 表 

con_features TEXT 逗号 分 隔 字符 串 ， 连 续 特 征 名 称 列 表 

grouping col TEXT 分 组 列 名 

num_all_groups INTEGER | 训练 决策 树 时 的 总 分 组 数 

num_failed_groups INTEGER | 训练 决策 树 时 失败 的 分 组 数 

total_rows_processed BIGINT 所 有 分 组 处 理 的 总 行 数 

total_rows_skipped BIGINT 所 有 分 组 中 因为 缺少 值 或 失败 而 跳 过 的 总 行 数 

dependent_var_levels TEXT 对 于 分 类 ， 因 变量 的 不 同 取 值 

dependent_var_type TEXT 因 变 量 类 型 

input_cp FLOATS[ | 交叉 验证 前 用 于 剪 枝 决策 树 的 复杂 度 参数 45 pruning_params 
入 参 输入 的 值 相同 

independent_var_types TEXT 逗号 分 隔 字符 串 ， 自 变量 类 型 


id_col_name: TEXT 类 型 ， 训 练 数据 中 ， 含 有 ID 信息 的 列 名 。 这 是 一 个 强制 参数 ， 用 于 
预测 和 交叉 验证 。 每 行 的 ID 值 应 该 是 唯一 的 。 

dependent variable: TEXT 类 型 ， 包 含 用 于 训练 的 输出 列 名 。 分 类 的 输出 列 是 boolean. 
integer 或 text 类 型 ， 回 归 的 输出 列 是 double precision 类 型 。 决 策 树 的 因 变 量 可 以 为 多 个 ， 训 
练 函数 的 时 间 和 空间 复杂 度 ， 会 随 着 因 变 量 数量 的 增加 呈 线 性 增长 。 

list of features: TEXT 类 型 ， 喜 号 分 隔 字符 串 ， 用 于 预测 的 特征 列 名 ， 也 可 以 用 “*” 表 
示 所 有 列 都 用 于 预测 ( 除 下 一 个 参数 中 的 列 名 外 )。 特征 列 的 类 型 可 以 是 boolean. integer. text 
或 double precision。 

list of features to exclude: TEXT 类 型 ,逗号 分 阳 字 符 串 ,不 用 于 预测 的 列 名 。 如 果 自 变 
量 是 一 个 表达 式 (包括 列 的 类 型 转换 ) ,那么 这 个 列表 中 应 该 包括 用 于 自 变量 表达 式 的 所 有 列 
名 ， 否 则 那些 列 将 被 包含 在 特征 中 。 

split criterion: TEXT 类 型 ， 默 认 值 为 gini ， 用 于 分 类 ， 而 mse 用 于 回归 。 不 纯度 函数 
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计算 用 于 分 裂 的 特征 值 。 分 类 树 支持 的 标准 有 gini . entropy 或 misclassification ， 回 归 树 
的 分 裂 标准 总 是 使 用 mse 。 
grouping_cols〈 可 选 ) : TEXT 类 型 ， 默 认 值 为 NULL， 豆 号 分 隔 字符 串 ， 分 组 的 列 名 。 
将 为 每 个 分 组 产生 一 棵 决策 树 。 
weights (可 选 ) : TEXT 类 型 ， 权 重 列 名 。 
max_depth〈 可 选 ) : INTEGER 类 型 ， 默 认 值 为 10。 最 终 决策 树 的 最 大 深度 ， 根 的 深度 
为 0。 
min_split (可 选 ) : INTEGER 类 型 ， 默 认 值 为 20。 一 个 试图 被 分 裂 的 节点 中 ， 必 须 存在 
的 元 组 的 最 小 数量 。 此 参数 的 最 佳 值 取决 于 数据 集 的 元 组 数目 。 
min bucket 〈 可 选 ) : INTEGER 类 型 ， 默 认 值 为 min_spliy3。 任 何 叶 节点 对 应 的 最 小 元 
组 数量 。 如 果 min split 和 min bucket 只 指定 一 个 ， 那 么 min split 设置 成 min_bucket*3, 或 者 
min bucket 设置 成 min_split/3。 
num splits (可 选 ) : INTEGER 类 型 ， 默 认 值 为 100。 为 计算 分 割 边界 ， 需 要 将 连续 特征 
值 分 成 离散 型 分 位 点 。 此 全 局 参数 用 于 计算 连续 特征 的 分 割 点 ， 值 越 大 预测 越 准 ， 处 理 时 间 也 
越 长 。 
pruning_params〈 可 选 ) : TEXT 类 型 ， 去 号 分 隔 的 键 - 值 对 ， 用 于 决策 树 剪 枝 ， 当 前 接受 
的 值 为 : 
€ cp: 默认 值 为 0。cp 全 称 为 complexity parameter， 指 菜 个 点 的 复杂 度 , 对 每 一 步 拆 分 ， 
模型 的 拟 合 优 度 必须 提高 的 程度 。 试图 分 裂 一 个 节点 时 ,分裂 增 加 的 精确 度 必须 提高 
cp， 才 进行 分 裂 ， 否 则 剪 枝 该 节点 。 该 参数 值 用 于 在 运行 检查 验证 前 ,创建 一 棵 初始 
树 。 
€ n folds: 默认 值 为 0. 用 于 计算 cp 最 佳 值 的 交叉 验证 裙 皱 数 ,为 执行 交叉 验证 , n. folds 
的 值 应 该 大 于 2。 执行 交叉 验证 时 ， 会 产生 一 个 名 为 <model table» cv 的 输出 表 ， 其 
中 包含 估计 的 cp 值 和 交叉 验证 错误 。 输 出 表 中 返回 的 决策 树 对 应 具有 最 少 交 叉 错误 
的 cp (如 果 多 个 cp 值 有 相同 的 错误 数 ， 取 最 大 的 cp) 。 
surrogate params: TEXT 类 型 ， 喜 号 分 隔 的 键 值 对 ， 控 制 蔡 代 分 裂 点 的 行为 。 替 代 变 量 是 
与 主 预测 变量 相关 的 另 一 种 预测 变量 ， 当 主 预测 变量 的 值 为 NULL 时 使 用 替代 变量 。 此 参数 
当前 接受 的 值 为 : 
€ max surrogates 默认 值 为 0， 每 个 节点 的 替代 变量 数 。 
verbosity (HJ) : BOOLEAN 类 型 ， 是 否 提供 训练 结果 的 详细 输出 ， 默 认 值 为 FALSE。 
(3) 提示 
MADIib 决策 树 训练 函数 的 很 多 参数 设计 与 流行 的 R 语言 函数 rpart 相似 。 它 们 的 一 个 重要 
区 别 是 ， 对 特征 和 分 类 变量 ，MADlib 使 用 整 型 作为 变量 值 类 型 ， 而 rpart 认为 它们 是 连续 的 。 
不 使 用 替代 变量 时 (max_surrogates=0) ， 用 于 训练 的 特征 值 为 NULL 的 行 ， 在 训练 和 预 
测 时 都 被 忽略 。 
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不 使 用 交叉 验证 时 Cn_folds=0) ， 决 策 树 依赖 输入 的 cost-complextity (cp) 进行 剪 枝 。 使 
用 交叉 验证 时 ， 所 有 节点 cp 都 要 大 于 参数 cp。 在 进行 交叉 验证 时 ， 训 练 函 数 使 用 cp ABH 
立 一 个 初始 树 ， 并 探索 所 有 可 能 的 子 树 〈 直 到 单 节点 树 ) ， 计 算 每 个 节点 的 cp 进行 剪 枝 ， 得 
到 优化 的 子 树 。 优 化 的 子 树 及 其 相应 的 cp 被 放 在 输出 表 中 ， 分 别 对 应 输出 表 的 tree 和 
pruning cp 列 。 

影响 内 存 使 用 的 参数 主要 是 树 的 深度 、 特征 的 数量 和 每 个 特征 的 不 同 值 的 数量 。 如 果 遇 到 
VMEM 限制 ， 要 考虑 降低 这 些 参数 的 值 。 

2. 预测 函数 

(1) 语法 


tree predict (tree model, 
new_data_table, 
output table, 
type) 


(2) 参数 

tree model: TEXT 类 型 ， 包 含 决 策 树 模型 的 表 名 ， 应 该 是 决策 树 训练 函数 的 输出 表 。 

new data table: TEXT 类 型 ， 包 含 被 预测 数据 的 表 名 。 该 表 应 该 和 训练 表 具 有 相同 的 特 
征 ， 也 应 该 包含 用 于 标识 每 行 的 id col name. 

output table: TEXT 类 型 ， 预 测 结果 的 输出 表 名 ， 如 果 表 已 经 存在 则 报错 。 表 中 包含 标识 
每 个 预测 的 id col name 列 ， 以 及 每 个 因 变量 的 预测 列 。 

€ ”如 果 type='esponse'， 表 有 单一 预测 列 。 此 列 的 类 型 依赖 于 训练 时 使 用 的 因 变 量 的 类 型 。 

€ 如 果 type = 'prob'， 每 个 因 变量 对 应 多 列 ， 每 列表 示 因 变量 的 一 个 可 能 值 。 列 标识 为 

'estimated prob_dep_value” ， 其 中 dep value 表示 对 应 的 因 变 量 值 。 

type (i) : TEXT 类 型 ， 默 认 值 为 “response”。 对 于 回归 树 ， 输 出 总 是 因 变 量 的 预 

测 值 。 对 于 分 类 树 ， 变 量 类 型 可 以 是 “response ”或 “prob”。 


3. 显示 函数 


显示 函数 输出 一 个 决策 树 的 格式 化 表示 。 输出 可 以 是 dot 格式 , 或 者 是 一 个 简单 的 文本 格 
3X. dot 格式 可 以 使 用 GraphViz 等 程序 进行 可 视 化 。 


(1) 语法 


tree display(tree model, dot format, verbosity) 
还 有 一 个 显示 函数 输出 为 每 个 内 部 节点 选择 的 蔡 代 分 裂 点 : 


tree surr display(tree model) 
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(2) 参数 

tree model: TEXT 类 型 ， 含 有 决策 树 模型 的 表 名 。 

dot format: BOOLEAN 类 型 ， 默 认 值 为 TRUE， 使 用 dot 格式 ， 否 则 输出 文本 格式 。 

verbosity: BOOLEAN 类 型 ， 默 认 值 为 FALSE。 如 果 设 置 为 TRUE，dot 格式 输出 中 包含 
附加 信息 ， 如 不 纯度 、 样 本 大 小 、 每 个 因 变 量 的 权重 行 数 、 被 剪 枝 的 分 类 或 预测 等 。 输 出 总 是 
返回 文本 形式 ， 对 于 dot 格式 ， 可 以 重 定向 输出 到 客户 端 文件 ， 然 后 使 用 可 视 化 程序 处 理 。 





决策 树 示 例 


1. 问题 描述 

本 示例 取 自 维基 百科 中 的 “决策 树 ” 条 目 ， 问 题 描述 如 下 : 

小 王 是 一 家 著名 高 尔 夫 俱乐部 的 经 理 。 但 是 他 被 雇员 数量 问题 搞 得 心情 十 分 不 好 。 某 些 天 
好 像 所 有 人 都 来 玩 高 尔 夫 , 以 至 于 所 有 员工 都 忙 得 团团 转 还 是 应 付 不 过 来 , 而 有 些 天 不 知道 什 
么 原因 却 一 个 人 也 不 来 , 俱乐部 为 雇员 数量 浪费 了 不 少 资金 。 小 王 的 目的 是 通过 下 周 天 气 预报 
寻找 什么 时 候 人 们 会 打 高 尔 夫 , 以 适时 调整 雇员 数量 。 因 此 首先 他 必须 了 解 人 们 决定 是 否 打 球 
的 原因 。 在 两 周 时 间 内 可 以 得 到 以 下 记录 : 天 气 状况 有 了 晴 、 云 和 雨 ; 华氏 温度 表示 的 气温 : 相 
对 湿度 百分比 是否 有 风 。 当 然 还 有 顾客 是 不 是 在 这 些 日 子 光 顾 俱乐部 。 最 终 得 到 了 表 25-3 
所 示 的 14 行 5 列 的 数据 。 


X253 两 周 天 气 与 是 否 打 高 尔 夫 球 数据 








Don’t Pla 
Don’t Pla 


Play 
Don’t Pla 
Play 


Don’t Pla 








































sunny 69 Play 
rain 75 Play 
sunny 75 Play 
overcast 72 Play 
overcast 81 Play 
rain 7l Don't Play 





我 们 将 利用 MADlib 的 决策 树 相关 函数 来 解决 此 问题 。 
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2. 准备 输入 数据 
创建 dt golf 表 ， 将 14 条 数据 插入 dt_golf 表 中 。 


drop table if exists dt_golf; 
create table dt_golf 
( id integer not null, 
"outlook" text, 
temperature double precision, 
humidity double precision, 
windy text, 
class text ); 


copy dt golf (id,"outlook",temperature,humidity,windy,class) from stdin with 

delimiter '|'; 
1|sunny|85|85|'false'|'Don't Play' 
2|sunny|80|90|'true'|'Don't Play' 
3|overcast|83|78|'false'|'Play" 
4|rain|70|96|'false'|'Play' 
5|rain|68|80|'false'|'Play' 
6|rain|65|70|'true'|'Don't Play' 
7|overcast|64|65|'true'|'Play' 
8|sunny|72|95|'false'|'Don't Play' 
9|sunny|69|70|'false'|'Play' 
10|rain|75|80|'false'|'Play' 
11|sunny|75|70|'true'|'Play" 
12|overcast|72|90|'true'| Play" 
13|overcast|81|75|'false'|'Play' 
14|rain|71|80|'true'|'Don't Play' 
\. 


3. 运行 决策 树 训练 函数 
drop table if exists train output, train output summary, train output cv; 
select madlib.tree train( 





"dt golf', -- 训练 数据 表 
‘train output', -- 输出 模型 表 
Pad -- id Fl 
'class', -- 因 变 量 是 分 类 


"outlook", temperature, humidity, windy', 


-- 四 个 属性 是 特征 ， 注 意 加 了 双 引号 的 outlook， 要 区 分 大 小 写 


null::text, -- 没有 排除 列 

Yganay -- 分 裂 标准 使 用 gini 

null::text, -- 无 分 组 

null::text, -- 无 权重 

S; -- 因为 具有 4 NRE RERAREA 5. Bibi UA 
5, -- 最 小 分 裂 元 组 数 

1, -- 最 小 桶 数 ，min split/3 

10, -- 每 个 连续 性 变量 的 离散 型 分 位 点 数量 

'cp-0,n folds-6'  -- 初始 cp=0，6 折 验证 


) 
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4. 查看 输出 


COD 查询 概要 表 


dm=# \x 
Expanded display is on. 
dm=# select * from train_output_summary; 


-[ RECORD 1 ]--------- +----------------------------------------------- 
method tree train 

is classification t 

source table dt golf 

model table train_output 

id_col_name id 

dependent varname class 


independent varnames 
cat features 
con features 


l 
1 
| 
1 
| 
l 
| "outlook", windy, temperature, humidity 
1 
l 
grouping_cols 
1 
l 
1 
| 
l 
| 
l 
1 


"outlook", windy 
temperature, humidity 


num all groups il 

num_failed_groups 0 

total rows processed 14 

total rows skipped 0 

dependent var levels "'Don't Play" ","'Play' T 

dependent var type text 

input cp 0 

independent var types text, text, double precision, double precision 
说 明 : 


€ is classification 为 tf， 指 的 是 函数 用 于 预测 而 不 是 回归 。 

€  "outlook",windy 是 分 类 特征 ，temperature,humidity 是 连续 特征 。 

e 因 变 量 为 文本 类 型 ， 有 ‘Don'tPlay’ # “Play” 两 种 取 值 。 

€ 通过 pruning params 参数 设置 剪 枝 使 用 的 初始 cp 为 0， 交 又 检验 折 皱 数 为 6。 


(2) 查询 决策 树 表 


dm=# \x 

Expanded display is off. 

dm=# select madlib.tree display('train_output', false); 
tree display 


- Each node represented by 'id' inside (). = 


Each internal nodes has the split condition at the end, while each leaf 
node has a * at the end. - For each internal 
node (i), its child nodes are indented by 1 level with ids (2i+1) for 
True node and (2i+2) for False node. - Number of (weighted) rows 
for each response variable inside [].' The response label order is 
giver as dps "NS Done Play NOM ONT pITayNNSMTIE For each leaf, the prediction 


is given after the '-->" 
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(0) [59] "outlook" in {overcast} (1) [0 4] 
* -> "'Play'" (2) [5 5] 
temperature <= 75 (5) T3551 
temperature «- 65 (GL) Eb aup ss Bs 
"'Don't Play'" (12)[2 5] temperature «- 
70 (25)[0 3] * --» "'Play'" 
(26) [22] temperature <= 72 (53) [2 0] 
* ==> "Don't Play'" (54) OR? T 
UPD eye (6) [2:00] * ==>" Don te Play!" 
(1 row) 
说 明 
€ 节点 号 以 0 开始 ， 代 表 根 节点 。 如 果树 没有 剪 枝 ， 后 面 的 节点 号 应 该 是 连续 的 1、 
2、.…..… 、n。 而 树 被 剪 枝 后 ， 节 点 号 是 不 连续 的 ， 正 如 上 面 查询 结果 中 所 显示 的 。 
带 * 号 的 节点 是 叶子 节点 ， 其 他 是 内 部 测试 节点 。 
€ 顺序 值 [x y] 表 示 其 测试 节点 上 [“Don't play” “Play”] 所 占 的 行 数 。 例 如 ， 在 根 节 
30. A 54% “Don'tplay” , 947 "Play" . wR MAF4E “outlook” =overcast 作为 测 
试 条 件 , 结果 有 0 fr “Don't play” , 447 “Play” , 节点 1 为 叶子 结 点 。 剩 下 5 47 “Don't 
play” 与 5 行 “Play” 在 节点 2 上 测试 temperature<=75。 以 此 类 推 ， 从 上 到 下 解读 输 
出 结果 。 
e 虽然 我 们 的 输入 数据 中 提供 了 四 个 特征 自 变量 ,但 训练 函数 输出 的 结果 决策 树 中 只 体 
现 出 天 气 状况 和 气温 ， 相 对 湿度 与 是 否 有 风 没 有 作为 测试 条 件 。 
G) 以 dot 格式 显示 决策 树 
\t -- 不 显示 表 头 
Vo test.dot -- 将 查询 结果 输出 到 文件 
select madlib.tree display('train output', true, true); -- 输出 决策 树 详细 信息 
\o 
\t 
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生成 dot 文件 后 ， 使 用 第 三 方 图 形 软件 GraphViz 画 出 决策 树 ， 执 行 以 下 shell 命令 : 


# 安装 GraphViz 

yum -y install graphviz 

# 将 dot 文件 转 成 jpg 文件 输出 

dot -Tjpg test.dot -o test.jpg 





生成 的 决策 树 如 图 25-2 所 示 。 


第 25 章 分 类 方法 


“outlook” in {overcast} 
impurity = 0.459184 
samples = 14 
value = [5 9] 
class = “Play 


temperature <= 75 
"Play" impurity = 0.5 
samples = 4 samples = 10 
value = [0 4] value = [5 5] 
class = "Don't Play™ 


temperature <= 65 
impurity = 0.46875 “Don't Play™ 
samples = 8 samples = 2 


value = [35] value = [2 0] 
class = "Play" 


temperature <= 70 
"Don't Play” impurity = 0.408163 
samples = 1 samples = 7 
value = [10] value = [2 5] 
class = "Play" 


temperature <= 72 
“Play” impurity = 0.5 
samples = 3 samples = 4 
value = [0 3] value = [2 2] 
class = ""Don't Play” 


“Don't Play” “Play™ 
samples = 2 samples = 2 
value = [2 0] value = [0 2] 








252 图形 化 显示 dot 格式 决策 树 
图 中 显示 的 决策 树 与 文本 的 输出 一 致 ,矩形 为 叶子 节点 , 椭圆 形 为 内 部 测试 节点 。 除 了 文 
本 输出 的 信息 外 ， 图 中 还 多 了 一 个 impurity， 代 表 不 纯度 ， 是 指 将 来 自 集合 中 的 某 种 结果 随机 


应 用 在 集合 中 , 某 一 数据 项 的 预期 误差 率 。 不 纯度 越 小 ,集合 的 有 序 程度 越 高 , 分 类 的 效果 越 
好 。 叶 子 节点 的 不 纯度 为 0。 
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(4) 查询 交叉 验证 结果 表 


dm=# select * from train_output_cv; 

cep” I cv error avg | cv error stddev 

Halid hl tanen EnA D i et ad emee es Bat sir e e aisa A t et i a a 
0 | 0.54861111111111111111 | 0.1827757821265895499515345089798222389039 

0.2 | 0.58333333333333333333 | 0.2297341458681703628002325108823829393492 

(2 rows) 


可 以 看 到 ， 随 着 cp 值 的 增 大 ， 剪 枝 增多 ， 精 度 降 低 。 
5. 分 析 决 策 树 
分 类 树 算 法 可 以 通过 特征 ， 找 出 最 好 地 解释 因 变量 class〈 是 否 打 高 尔 夫 球 ) 的 方法 。 


(1) 变量 outlook 的 范畴 被 划分 为 两 组 : 多 云 和 其 他 。 我 们 得 出 第 一 个 结论 : 如 果 天 气 
是 多 云 ， 人 们 总 是 选择 玩 高 尔 夫 。 

OD 在 不 是 多 云天 气 时 ， 以 气温 划分 ， 当 气温 高 于 华氏 75 度 或 低 于 华氏 65 度 时 ， 没 人 
玩 高 尔 夫 ; 65 ~ 70 度 之 间 人 们 选择 玩 高 尔 夫 ，70 ~ 72 度 之 间 没 人 玩 高 尔 夫 ; 72 ~ 75 度 会 玩 高 
尔 夫 。 


这 就 通过 分 类 树 给 出 了 一 个 解决 方案 。 小 王 在 晴天 、 雨 天 并 且 气温 过 高 或 过 低 时 解雇 了 大 
部 分 员工 ， 因 为 这 种 天 气 不 会 有 人 玩 高 尔 夫 。 而 其 他 的 天 气 会 有 很 多 人 玩 高 尔 夫 ， 因 此 可 以 雇 
用 一 些 临 时 员工 来 工作 。 

6. 用 决策 树 模型 进行 预测 

从 交叉 验证 结果 看 ， 即 便 是 初始 cp=0， 得 到 的 标准 差 仍 然 较 大 ， 这 和 我 们 的 样本 数据 过 
少 有 关 。 从 本 示例 的 分 析 中 就 可 以 看 到 ，65 ~ 70 度 、72 ~ 75 度 会 玩 高 尔 夫 ， 而 70 ~ 72 度 之 
间 没 人 玩 ， 这 个 预测 显然 有 悖 常理 。 现 在 就 用 此 模型 预测 一 下 原始 数据 ， 再 和 实际 情况 对 比 一 
下 。 这 里 只 是 演示 一 下 如 何 用 模型 进行 预测 ， 实 践 中 训练 数据 集 与 预测 数据 集 相同 意义 不 大 。 

drop table if exists prediction results; 

select madlib.tree predict 


('train output', -- 决策 树 模型 
'dt golf', -- 被 预测 的 数据 表 
"prediction results', -- 预测 结果 表 
'response!); -- 预测 结果 


select tl.*,t2.class 
from prediction results tl, dt golf t2 
where tl.id-t2.id order by id; 


查询 结果 如 下 : 

id | estimated class | class 

ee SESS dX coe 
Ile Done Play"! | 'Don't Play' 
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2 | "Don"t Play" | "Don't Play' 
3 | 'Play' | 'Play' 
4 | "Play" | 'Play' 
Sal play, j| Vigil 
6 | "Dont Play" | "don"t Play" 
7 | 'Play' | 'Play' 
8 | 'Don't Play' | 'Don't Play? 
9 | 'Play' | 'Play' 
10 | 'Play' | 'Play' 
11 | 'Play' | 'Play' 
12 | 'Play' | 'Play' 
13 | 'Play" | 'Play' 
14 | 'Don't Play" | "Don't Play' 
(14 rows) 


25.5 小 结 


分 类 是 数据 挖掘 的 重要 方法 之 一 ,到 目前 为 止 , 已 有 多 种 基于 各 种 思想 和 理论 基础 的 分 类 
算法 ， 实 际 应 用 也 已 趋 于 成 熟 。 本 章 简要 介绍 了 决策 树 方法 的 相关 概念 和 原理 ， 并 用 一 个 实际 
的 例子 ， 详 细 说 明了 MADlib 的 决策 树 相关 函数 的 用 法 。 
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图 算法 指 利用 特制 的 线条 算 图 求 得 答案 的 一 种 简便 算法 。 无 向 图 、 有 向 图 和 网 络 能 运用 很 
多 常用 的 图 算法 ， 其 中 主要 包括 各 种 遍历 算法 〈 这 些 遍历 类 似 于 树 的 遍历 ) ， 寻 找 最 短路 径 的 
算法 ,寻找 网 络 中 最 低 代 价 路 径 的 算法 。 这些 算 法 常 被 用 以 回答 一 些 与 图 相关 的 问题 , 诸如 图 
是 否 是 连通 的 ,图 中 两 个 顶点 间 的 最 短路 径 是 什么 等 。 在 数据 挖掘 领域 中 ,图 算法 可 应 用 到 多 
种 场合 ， 以 解决 特定 问题 ， 如 管道 优化 、 路 由 选择 、 快 递 服务 、 网 站 通信 等 。 

本 章 介 绍 图 的 基本 概念 和 表示 方法 ， 并 简要 说 明 一 些 常 用 的 图 算法 。MADlib 文档 中 只 列 
出 了 一 种 图 算法 模型 ， 即 单 源 最 短路 径 ， 因 此 我 们 将 详细 描述 该 算法 及 其 相关 函数 。 同 样 也 会 
用 一 个 简单 示例 ， 说 明 MADIib 单 源 最 短路 径 函 数 的 用 法 。 


26.) 图 算法 简介 


1. 图 的 概念 

在 计算 中 , 常 将 运算 方程 或 实验 结果 绘制 成 由 若干 有 标尺 的 线条 所 组 成 的 图 , 称 为 “ 算 图 ”。 
计算 时 根据 已 知 条 件 ， 从 有 关 线 段 上 一 点 开始 , 连接 相关 线段 上 的 点 ， 连 线 与 表示 所 求 量 线段 
的 交点 即 为 答案 。 图 算法 是 对 树 的 拓展 ， 树 是 自 上 而 下 的 数据 结构 ， 除 根 节点 外 ， 其 他 每 个 结 
点 都 有 一 个 父 结 点 ， 从 上 向 下 排列 。 而 图 没有 了 父子 节点 的 概念 ， 图 中 的 结 点 都 是 平等 关系 ， 
结果 更 加 复杂 。 

定义 图 G=(V,E), 其 中 V 代表 顶点 Vertex, E 代表 边 Edge, 一 条 边 就 是 一 个 定点 对 (U,V)， 
其 中 (U,V)eV。 图 分 有 向 图 和 无 向 图 。 在 无 向 图 中 ， 如 果 (U,V) (表示 U 到 V 的 路 径 ) 联通 ， 
那么 (U,V) 也 联通 , 例如 “1” 到 “2” 联 通 ，“2” 到 “1” 也 联通 。 但 是 在 有 向 图 中 “1” 到 “2” 
联通 ， 但 是 “2” 到 “1” 是 不 联通 的 。 图 26-1 与 图 26-2 分 别 表示 一 个 无 向 图 和 一 个 有 向 图 。 


e—9 o—oo Q 
De [^ 
qe (4) 


26-1 无 向 图 262 有 向 图 


B28 图 算法 


在 图 的 概念 中 , 除了 项 点 和 边 的 概念 外 , 还 经 常 涉及 权 值 ， 表 示 一 个 顶点 到 另 一 个 顶点 的 
“代价 ”， 如 果 项 点 不 联通 ， 可 以 认为 权 值 无 限 大 。 如 果 不 涉 及 权 值 ， 那 么 可 以 认为 联通 的 项 
点 权 值 都 为 1。 


2. 图 的 表示 
数据 结构 中 经 常用 邻接 表 和 邻接 矩阵 表示 图 。 
(1) 邻接 表 


图 26-3 即 为 图 26-2 所 示 有 向 图 的 邻接 表 ， 表 中 的 一 个 节点 对 应 图 中 的 一 个 顶点 ， 节 点 后 
面 的 链表 是 与 这 个 节点 联通 的 节点 。 





图 26-3 BEK 

邻接 表 常 用 于 表示 稀疏 图 ， 即 结 点 的 边 数 |E| 远 小 于 |VI^2 。 对 于 有 向 图 ， 邻 接 表 存储 
所 占 空间 为 [VHE] ， 对 于 无 向 图 为 |VI+2|E| ， 因 为 每 条 边 在 邻接 表 中 出 现 两 次 。 邻 接 表 在 存 
储 上 占 优势 ,但 是 在 判断 两 个 结 点 (U,V) 是 否 联 通 时， 要 首先 在 邻接 表 中 找到 u， 然 后 再 遍历 u 
后 面 的 链表 。 

(2) 邻接 矩阵 

图 26-4 是 图 26-1 所 示 无 向 图 的 邻接 矩阵 表示 。 邻 接 和 矩阵 是 一 个 |Vlx|V| 的 矩阵 GMatr， 如 
果 (U,V) 联 通 ， 那 么 GMatr[u][v]=1。 如 果 图 是 加 权 的 话 ，GMatr[u][v]= 权 值 。 
2 3 4:56 


oocococococ|- 





ON Un 4 WN 一 


图 26-4 邻接 矩阵 
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可 以 看 出 ， 邻 接 和 矩阵 表示 方法 所 占 空间 为 OV, 但 是 在 判断 两 个 结 点 是 否 联 通 时 ， 只 需 
ol) 。 当 图 比较 小 时 更 多 采用 邻接 矩阵 ， 因 为 它 更 明了 。 如 果 图 没有 加 权 ， 可 以 用 一 个 二 进 
制 位 来 表示 两 个 图 是 否 联通 。 

3. 常用 图 算法 

(1) 图 的 遍历 

图 的 遍历 是 指 从 图 中 的 任 一 顶点 出 发 , 对 图 中 的 所 有 顶点 访问 一 次 且 只 访问 一 次 。 遍历 操 
作 是 图 的 一 种 基本 操作 ,图 的 许多 操作 都 建立 在 遍历 的 基础 之 上 。 在 遍历 图 时 , 为 保证 图 中 各 
顶点 在 遍历 过 程 中 被 访问 且 仅 一 次 , 需要 为 每 个 项 点 设计 一 个 访问 标记 , 设置 一 个 数组 , 用 于 
标识 图 中 哪个 项 点 被 访问 过 。 数 组 元 素 的 初始 值 全 部 为 0， 表 示 顶 点 均 未 被 访问 过 。 某 个 顶点 
被 访问 后 ， 将 相应 访问 标志 数组 中 的 值 设 为 1， 以 表示 该 项 点 已 经 被 访问 。 通 常 图 的 遍历 有 两 
种 : 深度 优先 遍历 搜索 和 广度 优先 遍历 搜索 。 

深度 优先 遍历 是 尽 可 能 “ 深 ” 的 遍历 图 。 假设 从 结 点 v0 开始 遍历 ， 遍 历 与 v0 联通 的 且 未 
被 遍历 过 的 结 点 v1， 再 遍历 与 vl 联通 的 且 未 被 遍历 过 的 结 点 v2……。 如 果 遍 历 到 vn 后 无 结 
点 可 以 遍历 ， 那 么 退回 到 v(n-1) 再 去 找 结 点 遍历 ， 以 此 类 推 ， 直 到 图 中 所 有 节点 都 被 遍历 过 。 
可 以 看 出 图 的 深度 优先 遍历 可 以 借助 堆栈 实现 。 


a. 把 结 点 v 放 入 堆栈 ， 标 记 vo 
b. 若 堆 栈 为 空 则 结束 ， 否 则 取出 栈 顶 节点 u。 
c. 找 出 与 u 联 通 的 且 未 被 标记 的 结 wl,w2,……， 并 入 栈 ， 转 到 第 二 步 。 


图 的 广度 优先 遍历 有 点 像 树 的 层次 遍历 ， 是 一 个 分 层 搜索 的 过 程 。 假 设 从 vO 结 点 开始 遍 
Jj, 首先 遍历 与 v0 节点 联通 的 点 wl1,w2,…*… ， 再 遍历 与 wl 联通 的 点 u1,u2,……, 与 w2 联通 
的 点 ql*…*… 。 在 遍历 过 程 中 ， 要 注意 不 要 重复 遍历 一 个 节点 ， 往 往 在 遍历 过 一 个 结 点 后 就 对 
这 个 节点 做 标记 。 广 度 优 先 遍 历 常常 借助 队列 实现 ， 步 骤 如 下 : 

a. 把 结 点 v 放 入 队列 ， 标 记 vo 

b. 若 队列 为 空 则 结束 ， 和 否则 取出 队列 头 节点 u。 

c. 找 出 与 u 联 通 的 节点 wl,w2,………， 若 未 被 遍历 则 遍历 ， 然 后 标记 、 入 队 ， 转 到 上 一 步 。 


(2) 最 小 生成 树 

HTA n 个 顶点 的 无 向 连通 图 ， 至 少 有 n-1 条 边 ， 而 生成 树 恰好 有 n-1 条 边 ， 所 以 生成 树 
是 图 的 极 小 连通 子 图 。 如 果 无 向 连通 图 是 一 个 网 , 那么 它 的 所 有 生成 树 中 必 有 一 棵 边 的 权 值 总 
和 最 小 的 生成 树 ， 称 这 颗 生成 树 为 最 小 生成 树 。 

最 小 生成 树 是 通过 贪心 算法 来 构建 ， 通 过 局 部 最 优 来 达到 整体 最 优 。 设 G(V, E) 是 一 个 无 
向 联通 图 ， 其 权 值 函数 为 wo A 是 最 小 生成 树 的 子 集 ， 初 始 为 空 。 通 过 循环 迭代 ， 每 次 往 A 
中 加 入 一 条 边 ， 且 确保 加 入 边 后 ，A 仍 是 最 小 生成 树 的 子 集 ， 那 么 加 入 的 这 条 边 就 叫做 “安全 
X! (safe edge) ”。 直 到 把 所 有 的 节点 都 加 入 到 A 中 ， 循 环 结束 。 

最 小 生成 树 可 以 用 Kruskal 算法 或 Prim 算法 求 出 。 在 Kruskal 算法 中 ，A 是 一 个 森林 ， 将 
权 值 进行 排序 , 选取 权 值 最 小 的 边 ， 若 选取 的 边 不 形成 回路 ， 则 为 安全 边 ， 把 它 添加 到 正在 生 
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长 的 森林 中 。 在 Prim 算法 中 ，A 中 的 边 形成 单 树 ， 每 次 循环 向 A 中 添加 一 个 项 点 ( 权 值 最 小 
的 边 连接 的 顶点 ) 。 在 算法 实现 中 用 到 一 个 最 小 优先 级 队列 ,不 在 树 中 的 顶点 都 放 在 基于 权 值 


边 的 最 小 权 值 ， 如 果 不 连 接 ， 那么 key[v]= = 。 
(3) 最 短路 径 
此 问题 求 从 一 个 源 点 到 其 他 各 点 的 最 短路 径 。 求 解 单 源 最 短路 径 的 算法 主要 有 Dijkstra 算 
法 和 Bellman-Ford 算法 ， 其 中 Dijkstra 算法 用 来 解决 所 有 边 的 权 为 非 负 的 单 源 最 短路 径 问 题 ， 
而 Bellman-Ford 算法 可 以 适用 于 更 一 般 的 问题 ， 图 中 边 的 权 值 可 以 为 负 。MADlib 的 单 源 最 短 
路 径 函 数 就 是 使 用 Bellman-Ford 算法 实现 的 。 如 果 要 得 到 每 一 对 顶点 之 间 的 最 短路 径 ， 可 使 
用 Floyd 算法 来 求解 。 


we 4. 
26.2 单 源 最 短路 径 

(1) 问题 描述 

给 定 一 个 带 权 有 向 图 G=(V,E) ， 其 中 每 条 边 的 权 值 是 一 个 非 负 实数 。 另 外 ， 还 给 定 V 中 
的 一 个 顶点 , 称 为 源 。 现在 我 们 要 计算 从 源 到 所 有 其 他 各 顶点 的 最 短路 径 长 度 。 这 里 的 长 度 是 
指 路 上 各 边 权 值 之 和 。 这 个 问题 通常 称 为 单 源 最 短路 径 问 题 。 


(2) Dijkstra 算法 

Dijkstra 算法 是 一 种 典型 最 短路 径 算法 ， 用 于 计算 一 个 节点 到 其 他 所 有 节点 的 最 短路 径 。 
不 过 , 它 针 对 的 是 非 负 权 值 边 。 其 主要 特点 是 以 起 始点 为 中 心 向 外 层 层 扩展 ,直到 扩展 到 终点 
为 止 。 Dijkstra 算法 能 得 出 最 短路 径 的 最 优 解 , 但 由 于 它 遍 历 计 算 的 节点 很 多 ， 所 以 效率 较 低 。 

Dijkstra 算法 的 输入 包含 了 一 个 有 权重 的 有 向 图 G， 以 及 G 中 的 一 个 来 源 项 点 s。 我 们 以 
V 表示 G 中 所 有 项 点 的 集合 ， 以 E 表示 G 中 所 有 边 的 集合 。 表 示 从 顶点 u 到 v 有 路 径 相 连 ， 
而 边 的 权重 则 由 权重 函数 w:E-[0, eo] 定义 。 因 此 ，w(u,v) 就 是 从 顶点 u 到 顶点 v 的 非 负 成 
本 值 (cost) ， 边 的 成 本 可 以 想像 成 两 个 项 点 之 间 的 距离 。 任 两 点 间 路 径 的 成 本 值 ， 就 是 该 路 
径 上 所 有 边 的 成 本 值 总 和 。 

BAIA V 中 有 项 点 s Kt, Dijkstra 算法 可 以 找到 s F) t 的 最 低 成 本 路 径 〈 最 短路 径 ) 。 
这 个 算法 也 可 以 在 一 个 图 中 ， 找 到 从 一 个 顶点 s 到 任何 其 他 项 点 的 最 短路 径 。 


(3) Bellman-Ford 算法 
Dijkstra 算法 无 法 判断 含有 负 权 边 图 的 最 短路 径 。 如 果 遇 到 负 权 值 ， 在 没有 负 权 回路 〈 
路 的 权 值 和 为 负 ， 即 便 有 负 权 的 边 ) 存在 时 ， 可 以 采用 Bellman-Ford 算法 正确 求 出 最 短路 径 。 
Bellman-Ford 算法 能 在 更 普遍 的 情况 下 (存在 负 权 边 ) 解决 单 源 点 最 短路 径 问 题 。 对 于 给 定 的 
带 权 ( 有 向 或 无 向 ) R, 其 源 点 为 s， 加 权 函 数 w 是 边 集 E 的 映射 。 对 图 G 运行 Bellman-Ford 
算法 的 结果 是 一 个 布尔 值 , 表明 图 中 是 否 存在 着 一 个 从 源 点 s 可 达 的 负 权 回路 。 若 不 存在 这 样 





Iz] 
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的 回路 , 算法 将 给 出 从 源 点 s 到 图 G 的 任意 顶点 v 的 最 短路 径 d[v]。Bellman-Ford 算法 寻找 单 
源 最 短路 径 的 时 间 复 杂 度 为 O(V*E)。 

Bellman-Ford 算法 描述 : 

CD 初始 化 : 将 除 源 点 外 的 所 有 顶点 的 最 短 距 离 估计 值 ,d[v] 一 +oo，df[s] 一 0; 

© ERR: 反复 对 边 集 E 中 的 每 条 边 进行 松弛 操作 ， 使 得 顶点 集 V 中 的 每 个 项 点 v 的 
最 短 距 离 估计 值 逐步 逼近 其 最 短 距 离 〈 运 行 |v1-1 次 ) ; 

@ 检验 负 权 回路 : 判断 边 集 E 中 的 每 一 条 边 的 两 个 端点 是 否 收敛 。 如 果 存 在 未 收敛 的 顶 
点 ， 则 算法 返回 false， 表 明 问 题 无 解 ， 否则 算法 返回 true， 并 且 从 源 点 可 达 的 顶点 Y 的 最 短 
距离 保存 在 d[v] 中 。 








MADIib 的 单 源 最 短路 径 相关 函数 


1. 单 源 最 短路 径 函 数 
CD 语法 
graph_sssp( vertex_table, 
vertex_id, 
edge table, 
edge args, 
source vertex, 


out table ) 
(2) BR 
vertex table: TEXT 类 型 ， 包 含 图 中 顶点 数据 的 表 名 。 
vertex id: TEXT 类 型 ， 默 认 值 为 id，vertex_table 表 中 包含 顶点 的 列 名 。 顶 点 列 必须 是 I 


NTEGER 类 型 ， 并 且 数 据 不 能 重复 ， 但 不 要 求 连续 。 

edge table: TEXT 类 型 ， 包 含 边 数据 的 表 名 。 边 表 必 须 包含 源 顶 点 、 目 标 项 点 和 边 长 三 
列 。 边 表 中 允许 出 现 回路 ， 并 且 构 成 回路 的 权重 可 以 不 同 。 

edge args: TEXT 类 型 ， 是 一 个 逗号 分 隔 字符 串 ， 包 含 多 个 “name=value” 形 式 的 参数 ， 
支持 的 参数 如 下 : 

€ src: INTEGER 类 型 ， 边 表 中 包含 源 顶 点 的 列 名 ， 默 认 值 为 ‘sre 

€ des: INTEGER 类 型 ， 边 表 中 包含 目标 顶点 的 列 名 ， 默 认 值 为 ‘dest 。 

€ weight: FLOAT8 类 型 ， 边 表 中 包含 边 长 的 列 名 ， 默 认 值 为 “weight” . 


source vertex: INTEGER 类 型 , 算法 的 起 始 顶 点 。 此 顶点 必须 在 vertex. table 表 的 vertex. id 
列 中 存在 。 
out table: TEXT 类 型 ， 存 储 单 源 最 短路 径 的 表 名 ， 表 中 的 每 一 行 对 应 一 个 vertex_table 
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表 中 的 顶点， 具有 以 下 列 : 
€ vertex id: 目标 项 点 ID， 使 用 vertex id 入 参 的 值 作为 列 名 。 
€ weight: 从 源 顶 点 到 目标 顶点 最 短路 径 边 长 合计 ， 使 用 weight 入 参 的 值 作为 列 名 。 
€ parent: 在 最 短路 径 上 ， 本 顶点 的 上 一 节点 ， 列 名 为 'paent . 


2. 路 径 检索 函数 
路 径 检索 函数 返回 从 源 项 点 到 指定 目标 项 点 的 最 短路 径 。 
(OD 语法 


graph_sssp( sssp_table, 
dest_vertex ) 


(2) 参数 


sssp_table: TEXT 类 型 ， 单 源 最 短路 径 函 数 的 输出 表 名 。 
dest vertex: INTEGER 类 型 ， 指 定 的 目标 顶点 。 


26.4 单 源 最 短路 径 示例 


单 源 最 短路 径 问题 是 图 算法 的 经 典 问题 , 在 现实 中 有 很 多 应 用 ,比如 在 地 图 中 找 出 两 个 点 

之 间 的 最 短 距离 、 最 小 运费 等 。 社 交 网 络 中 出 现 的 “六 度 人 脉 ”功能 ， 可 以 查看 到 一 个 用 户 和 

-个 陌生 人 之 间 可 以 通过 哪 几 个 人 认识 , 也 就 是 所 谓 的 六 度 关系 。 这 个 问题 也 可 抽象 为 一 个 单 

源 最 短路 径 问 题 。 将 用 户 作 为 顶点， 用 户 之 间 的 好 友 关 系 作为 边 ，“ 六 度 关系 ”就 是 两 个 用 户 

之 间 的 最 短路 径 。 在 这 个 特殊 场景 下 ， 所 有 边 的 权重 都 可 认为 是 1。 当 然 ， 如 果 用 户 量 巨大 ， 

用 户 好 友 关 系 将 变 得 非常 复杂 ,单纯 的 最 短路 径 算法 可 能 存在 性 能 问题 ,需要 进行 改进 与 优化 。 
1. 建立 表示 图 的 顶点 表 和 边 表 


drop table if exists vertex, edge; 
create table vertex( id integer ); 
create table edge( src integer, dest integer, weight float8 ); 


insert into vertex values 
(0, (1), (2), (3, (Ade (5), (6), (7); 


insert into edge values 

(07155 DO) Oy. 27 1:20), (0; 47 10:70), (17.2, 220) 7 
(7 35 1070): War 737 1:0) 7 (2, 75, I ON (2:96, 3:70); 
(37r O07 1.0); (4; 0, 77270)/; (5, 6, 1.0), (6; 7, 1.0); 
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2. 计算 从 0 顶点 到 各 顶点 的 最 短路 径 


drop table if exists out; 
select madlib.graph_sssp 


( 'vertex', -- 顶点 表 
null, -- 顶点 列 名 ， 这 里 使 用 默认 值 id’ 
'edge', -- WR 
null, -- 边 参 数 ， 这 里 全 部 使 用 默认 列 名 
0, -- 计算 最 短路 径 的 起 始 顶 点 
Tout) 7 -- 输出 表 名 


select * from out order by id; 
查询 结果 如 下 : 


id | weight | parent 


二 和 
0| 0 1 0 
1 1 | 0 
2 | tl 0 
sy || 2wl 2 
4| 10 | 0 
Sai 2 | 2 
6il 31 5 
Hal an 6 
(8 rows) 


3. 获得 从 0-6 的 最 短路 径 


dm=# select madlib.graph sssp get path('out',6) as spath; 
spath 


(0,2,5,6) 
(1 row) 


4. 使 用 非 默认 列 名 


drop table if exists vertex_alt, edge_alt; 
create table vertex_alt as select id as v_id from vertex; 
create table edge alt as select src as e src, dest, weight as e weight from edge; 


5. 计算 从 1 顶点 到 各 顶点 的 最 短路 径 


drop table if exists out alt; 
select madlib.graph_sssp 


( 'vertex alt', -- 顶点 表 
i -- 顶点 列 名 
'edge alt', -- 边 表 


'src-e src, weight-e weight', -- 边 参 数 ， 指 定 顶点 和 边 长 的 列 名 
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1, -- 计算 最 短路 径 的 起 始 项 点 
'out alt'); -- 输出 表 名 
select * from out_alt order by v_id; 
结果 : 
v id | e weight| parent 
a a 
0 1 a S 
at I 0 1 
ail Zu 1 
3 1 ET 2 
& 14 | 0 
S 3-1 2 
6 1 e 5 
zu 5 1 6 
(8 rows) 


26.5 小 结 


图 算法 是 一 类 特殊 的 数据 挖掘 方法 , 常 被 用 于 解决 确定 图 连通 性 、 寻 找 最 短路 径 等 相关 问 
题 。 实 际 应 用 中 ， 图 算法 广泛 用 于 社交 网 络 分 析 (如 Community Detection) 、 互 联网 〈 如 
PageRank) 、 计 算 生物 学 (如 研究 分 子 活动 路 径 ) 、 电 子 工程 〈 如 集成 电路 设计 ) 、 科 学 计 
算 ( 如 图 划分 ) 、 安 全 领域 (如 安全 事件 分 析 ) 等 很 多 方面 。 图 算法 主要 包括 图 遍历 、 图 匹配 、 
最 小 生成 树 、 最 短路 径 等 几 大 类 ， 每 一 类 中 有 多 种 算法 。MADlib 仅 提供 了 一 种 图 算法 模型 ， 
即 单 源 最 短路 径 模型 ， 它 是 使 用 Bellman-Ford 算法 实现 的 。 
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< 模型 验证 > 


验证 是 评估 数据 挖掘 模型 对 实际 数据 执行 情况 的 过 程 。 在 将 挖掘 模型 部 署 到 生产 环境 之 
前 ， 必 须 通 过 了 解 模型 的 质量 和 特征 来 对 其 进行 验证 ， 评 估 模 型 的 准确 性 、 可 靠 性 和 可 用 性 。 
可 以 使 用 多 种 方法 评估 数据 挖掘 模型 的 质量 和 特征 : 

© ”使 用 统计 信息 有 效 性 的 各 种 度量 值 来 确定 数据 或 模型 中 是 否 存 在 问题 。 

@ 将 数据 划分 为 定型 集 和 测试 集 ， 以 测试 预测 的 准确 性 。 

e ”请求 商 业 专 家 查看 数据 挖掘 模型 的 结果 ,以 确定 发 现 的 模式 在 目标 商业 方案 中 是 否 有 

意义 。 

所 有 这 些 方法 在 数据 挖掘 方法 中 都 非常 有 用 ， 创 建 、 测 试 和 优化 模型 来 解决 特定 问题 时 
可 以 反复 使 用 这 些 方法 。 没 有 一 个 全 面 的 规则 可 以 说 明 什么 时 候 模型 已 足够 好 , 或 者 什么 时 候 
具有 足够 的 数据 。 本 章 介绍 最 常用 的 交叉 验证 方法 ， 以 及 MADlib 中 交叉 验证 函数 的 用 法 。 


交叉 验证 简介 


数据 挖掘 技术 在 应 用 之 前 使 用 的 “训练 + 检验 ”模式 ， 通 常 被 称 作 “ 交 叉 验证 ”, 如 图 27-1 
所 示 。 实 际 上 在 第 25 章 的 决策 树 函 数 中 ， 我 们 已 经 接触 过 交叉 验证 ， 当 n folds 参数 大 于 0 
时 ， 决 策 树 函数 在 构造 模型 过 程 中 就 会 进行 交叉 验证 。 


检验 
检验 特性 
,并 把 模型 


将 结论 应 用 
使 用 成 本 /损失 函数 来 测度 准确 性 . 结果 与 已 知 结果 比较 
不 断 笨 环 直至 达到 最 小 值 (比如 ， 
BETE) 


不 再 改变 模型 检验 是 为 了 度量 机 器 
通过 训练 后 的 表现 . 


反映 模型 是 否 足够 好 到 用 于 实践 





图 27-1 交叉 验证 过 程 


1. 预测 模型 的 稳定 性 
我 们 通过 一 个 例子 来 理解 模型 的 稳定 性 问题 ， 如 图 27-2 所 示 。 


Price 
Price 





Size Size 
图 27-2 尺寸 与 价格 模型 图 
此 处 我 们 试图 找到 尺寸 (size) 和 价格 〈price) 的 关系 。 三 个 模型 各 自 做 了 如 下 工作 : 


€ 第 一 个 模型 使 用 了 线性 等 式 。 对 于 训练 用 的 数据 点 ， 此 模型 有 很 大 误差 。 这 是 “ 拟 合 
AA (Under fitting) ”的 一 个 例子 。 此 模型 不 足以 发 据 数据 背后 的 趋势 。 

€ 第 二 个 模型 发 现 了 价格 和 尺寸 的 正确 关系 ， 此 模型 误差 低 ， 概 括 程度 高 。 

e 第 三 个 模型 对 于 训练 数据 几乎 是 零 误差 。 这 是 因为 此 关系 模型 把 每 个 数据 点 的 偏差 
(包括 噪声 ) 都 纳入 了 考虑 范围 ， 也 就 是 说 ， 这 个 模型 太 过 敏感 ， 甚 至 会 捕捉 到 只 在 
当前 数据 训练 集 出 现 的 一 些 随机 模式 。 这 是 “过 度 拟 合 (Over fitting) ”的 一 个 例子 。 

在 应 用 中 ,常见 的 做 法 是 对 多 个 模型 进行 迭代 ， 从 中 选择 表现 更 好 的 一 个 。 然 而 ， 最 终 的 

数据 是 否 会 有 所 改善 依然 未 知 , 因为 我 们 不 确定 这 个 模型 是 更 好 的 发 掘 出 潜在 关系 , 还 是 过 度 
拟 合 了 。 为 解答 这 个 难题 ， 需 要 使 用 交叉 验证 〈cross validation) 技术 ， 它 能 帮 我 们 得 到 更 有 
概括 性 的 数据 模型 。 实 际 上 , 数据 挖掘 关注 的 是 通过 训练 集训 练 后 的 模型 对 测试 样本 的 学 习 效 
R, 我 们 称 之 为 泛 化 能 力 。 左 右 两 图 的 泛 化 能 力 就 表现 不 好 。 有 具体 到 数据 挖掘 中 ， 对 偏差 和 方 
差 的 权衡 是 数据 挖掘 理论 着 重 解决 的 问题 。 

2. 交叉 验证 步骤 

交叉 验证 意味 着 需要 保留 一 个 样本 数据 集 ， 不 用 来 训练 模型 。 在 最 终 完成 模型 前 ,用 这 个 

数据 集 验证 模型 。 交 叉 验 证 包含 以 下 步骤 : 


(1) 保留 一 个 样本 数据 集 ， 即 测试 集 。 
(2) 用 剩余 部 分 (训练 集 ) 训练 模型 。 
G) 用 保留 的 数据 集 (测试 集 ) 验证 模型 。 


这 样 做 有 助 于 了 解 模型 的 有 效 性 。 如 果 当 前 模型 在 此 测试 数据 集 也 表现 良好 , 说 明 模型 的 
泛 化 能 力 较 好 ， 可 以 用 来 预测 未 知 数据 。 

3. 交叉 验证 的 常用 方法 

交叉 验证 有 很 多 方法 ， 下 面 介 绍 其 中 三 种 。 

(1) “验证 集 ”法 
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保留 50% 的 数据 集 用 作 验 证 ， 剩 下 50% 训练 模型 。 之 后 用 验证 集 测试 模型 表现 。 这 个 
方法 的 主要 缺陷 是 , 由 于 只 使 用 了 50% 数据 训练 模型 , 原 数 据 中 一 些 重 要 的 信息 可 能 被 忽略 ， 


(2) 留 一 法 交叉 验证 (LOOCV) 
这 种 方法 只 保留 一 个 数据 点 用 作 验 证 , 用 剩余 的 数据 集训 练 模型 。 然 后 对 每 个 数据 点 重复 
这 个 过 程 。 该 方法 有 利 有 次 : 


e ”由 于 使 用 了 所 有 数据 点 ， 所 以 偏差 较 低 。 

€ ”验证 过 程 重 复 了 n 次 (nn 为 数据 点 个 数 ) ， 导 致 执行 时 间 很 长 。 

€ ”由 于 只 使 用 一 个 数据 点 验证 , 该 方法 导致 模型 有 效 性 的 差异 更 大 。 得 到 的 估计 结果 深 
受 此 点 的 影响 。 如 果 这 是 个 离 群 点 ， 会 引起 较 大 偏差 。 


(3) K 折 交 叉 验 证 (K-fold cross validation) 

从 以 上 两 个 验证 方法 中 ， 我 们 知道 : 

€ 应 该 使 用 较 大 比例 的 数据 集 来 训练 模型 ,否则 会 导致 失败 ,最 终 得 到 偏 误 很 大 的 模型 。 
© ”验证 用 的 数据 点 ， 其 比例 应 该 恰到好处 。 如 果 太 少 ， 会 影响 验证 模型 有 效 性 时 ， 得 到 
的 结果 波动 较 大 。 

训练 和 验证 过 程 应 该 重复 多 次 ( 迭代) 。 训 练 集 和 验证 集 不 能 一 成 不 变 ， 这 样 有 助 于 
验证 模型 的 有 效 性 。 

是 否 有 一 种 方法 可 以 兼顾 这 三 个 方面 ? 答案 是 肯定 的 ! 这 种 方法 就 是 “K 折 交 叉 验证 ”。 


4.K 折 交叉 验证 简要 步骤 


K 折 交叉 验证 方法 的 简要 步骤 如 下 : 


(1) 把 整个 数据 集 随机 分 成 K“ 层 ”。 

(2) 对 于 每 一 份 数据 来 说 : 一 要 以 该 份 作为 测试 集 ， 其 余 作为 训练 集 ， 也 就 是 说 用 其 中 
K-1 层 训练 模型 ， 然 后 用 第 KK 层 验证 。 二 要 在 训练 集 上 得 到 模型 。 三 要 在 测试 集 上 得 到 生成 

G) 重复 这 个 过 程 ， 直 到 每 “ 层 ” 数 据 都 做 过 验证 集 。 这 样 对 每 一 份 数据 都 有 一 个 预测 
结果 ， 记 录 从 每 个 预测 结果 获得 的 误差 。 

(4) 记录 下 的 K 个 误差 的 平均 值 ， 被 称 为 交叉 验证 误差 (cross-validation error) 。 可 以 
被 用 做 衡量 模型 表现 的 标准 。 

(5) 取 误 差 最 小 的 那个 模型 。 


此 算法 的 缺点 是 计算 量 较 大 ， 当 K=10 时 ，K 层 交叉 验证 示意 图 如 图 27-3 所 示 。 
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图 27-3 10 折 交 叉 验证 


一 个 常见 的 问题 是 ， 如 何 确定 合适 的 K 值 ? K 值 越 小 ， 偏 误 越 大 ， 所 以 不 推荐 。 另 一 方 
面 ，K 值 太 大 ， 所 得 结果 会 变化 多 端 。K 值 小 ， 则 会 变 得 像 “ 验 证 集 法 ”，K 值 大 ， 则 会 变 得 
像 “ 留 一 法 ” (LOOCV) ， 因 此 通常 建议 的 经 验 值 是 K=10。 

5. 衡量 模型 的 偏 误 /变化 程度 

K 层 交 又 检验 之 后 ， 我 们 得 到 K 个 不 同 的 模型 误差 估算 值 (el,e2,…, ek) 。 理 想 情况 是 ， 
这 些 误差 值 相 加 的 结果 值 为 0。 计算 模型 的 偏 误 时 ， 我 们 把 所 有 这 些 误差 值 相 加 再 取 平均 值 ， 
平均 值 越 低 ， 模 型 越 好 。 模 型 表现 变化 程度 的 计算 与 之 类 似 。 取 所 有 误差 值 的 标准 差 ， 标 准 差 
越 小 说 明 模型 随 训练 数据 的 变化 越 小 。 

应 该 试图 在 偏 误 和 变化 程度 间 找 到 一 种 平衡 .降低 变化 程度 ,控制 偏 误 可 以 达到 这 个 目的 ， 
这 样 会 得 到 更 好 的 数据 模型 。 进 行 这 个 取舍 ， 通 常会 得 出 复杂 程度 较 低 的 预测 模型 。 


27.2 MADIib 的 交叉 验证 相关 函数 


决策 树 例子 中 的 交叉 验证 ， 是 内 购 在 决策 树 训练 函数 中 的 。MADlib 还 提供 了 独立 的 交叉 
验证 函数 ， 可 对 大 部 分 MADlib 的 预测 模型 进行 交叉 验证 。 

交叉 验证 可 以 估计 一 个 预测 模型 在 实际 中 的 执行 精度 ， 还 可 用 于 设置 预测 目标 。MADlib 
提供 的 交叉 验证 函数 非常 灵活 , 不 但 可 以 选择 已 经 支持 的 交叉 验证 算法 , 用 户 还 可 以 编写 自己 
的 验证 算法 。 从 交叉 验证 函数 输入 需要 验证 的 训练 、 预 测 和 误差 估计 函数 规范 。 这 些 规 范 包括 
三 部 分 : 函数 名 称 、 传 递 给 函数 的 参数 数组 、 参 数 对 应 的 数据 类 型 数组 。 

训练 函数 使 用 给 定 的 自 变量 和 因 变 量 数据 集 产生 模型 , 模型 存储 于 输出 表 中 。 预 测 函 数 使 
用 训练 函数 生成 的 模型 ， 并 接收 不 同 于 训练 数据 的 自 变量 数据 集 , 产生 基于 模型 的 对 因 变 量 的 
预测 ， 并 将 预测 结果 存储 在 输出 表 中 。 预 测 函 数 的 输入 中 应 该 包含 一 个 表示 唯一 ID 的 列 名 ， 
便于 预测 结果 与 验证 值 作 比 较 。 注 意 , 有 些 MADlib 的 预测 函数 不 将 预测 结果 存储 在 输出 表 中 ， 
这 种 函数 不 适用 于 MADlib 的 交叉 验证 函数 。 误差 度量 函数 比较 数据 集中 已 知 的 因 变 量 和 预测 
结果 ， 用 特定 的 算法 计算 误差 度量 ,并 将 结果 存 入 一 个 表 中 。 其 他 输入 包括 输出 表 名 , K 折 交 
叉 验 证 的 K 值 等 。 
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1. 语法 

cross_validation_general( modelling func, 
modelling params, 
modelling params type, 
param_explored, 
explore values, 
predict func, 
predict params, 
predict params type, 
metric func, 
metric params, 
metric params type, 
data tbl, 
data id, 
id is random, 
validation result, 
data cols, 
fold num ) 


2. 参数 


modelling func: VARCHAR 类 型 ， 模 型 训练 函数 名 称 。 

modelling_params: VARCHAR[] 类 型 ， 训 练 函数 参数 数组 。 

modelling params type: VARCHAR[] 类 型 ， 训 练 函 数 参 数 对 应 的 数据 类 型 名 称 数 组 。 

param explored: VARCHAR 类 型 ， 被 寻找 最 佳 值 的 参数 名 称 ， 必 须 是 modelling_params 
数组 中 的 元 素 。 

explore_values: VARCHAR 类 型 ， 候 选 的 参数 值 。 如 果 为 NULL， 只 运行 一 轮 交 叉 验 证 。 

predict_func: VARCHAR 类 型 ， 预 测 函 数 名 称 。 

predict_params: VARCHAR[] 类 型 ， 提 供给 预测 函数 的 参数 数组 。 

predict params type: VARCHAR[] 类 型 ， 预 测 函 数 参数 对 应 的 数据 类 型 名 称 数组 。 

metric func: VARCHAR 类 型 ， 误 差 度 量 函 数 名 称 。 

metric_params: VARCHAR[] 类 型 ， 提 供给 误差 度量 函数 的 参数 数组 。 

metric params type: VARCHAR[] 类 型 ， 误 差 度 量 函 数 参 数 对 应 的 数据 类 型 名 称 数组 。 

data_tbl: VARCHAR 类 型 ,包含 原始 输入 数据 表 名 ， 表 中 数据 将 被 分 成 训练 集 和 测试 集 。 

data id: VARCHAR 类 型 ， 表 示 每 一 行 唯一 ID 的 列 名 ， 可 以 为 空 。 理 想 情 况 下 ， 数 据 集 
中 的 每 行 数据 都 包含 一 个 唯一 ID, 这样 便于 将 数据 集 分 成 训练 部 分 与 验证 部 分 。id_is_random 
参数 值 告诉 交叉 验证 函数 ID 值 是 否 是 随机 赋值 。 如 果 原 始 数据 不 是 随机 赋 的 ID 值 ， 验 证 函 
数 为 每 行 生 成 一 个 随机 ID 

id_is_random: BOOLEAN 类 型 ， 为 TRUE 时 表示 提供 的 ID 是 随机 分 配 的 。 

validation result: VARCHAR 类 型 ， 存 储 交 叉 验 证 函数 输出 结果 的 表 名 ， 具 有 以 下 列 : 
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€ param explored: 被 寻找 最 佳 值 的 参数 名 称 。 与 cross validation general() 函数 的 
param explored 入 参 相 同 。 

€ average error: 误差 度量 函数 计算 出 的 平均 误差 。 

@ standard deviation of error: 标准 差 。 

data cols: 逗号 分 隔 的 用 于 计算 的 数据 列 名 。 为 NULL 时 ， 函 数 自动 计算 数据 表 中 的 所 有 
列 。 只 有 当 data id 参数 为 NULL 时 才 会 用 到 此 参数 ， 否 则 忽略 。 如 果 数 据 集 没 有 唯一 ID, X 
叉 验 证 函数 为 每 行 生成 一 个 随机 ID, 并 将 带 有 随机 ID 的 数据 集 复制 到 一 个 临时 表 。 设置 此 参 
数 为 自 变 量 和 因 变 量 列表 , 通过 只 复制 计算 需要 的 数据 ,最 小 化 复制 工作 量 。 计 算 完成 后 临时 
表 被 自动 删除 。 

fold num: INTEGER 类 型 , K 值 , 默认 值 为 10, 指定 验证 轮 数 , 每 轮 验证 使 用 1/fold_num 
数据 做 验证 。 

训练 、 预 测 和 误差 度量 函数 的 参数 数组 中 可 以 包含 以 下 特殊 关键 字 : 

€ %data%: 代表 训练 /验证 数据 。 
%model%: 代表 训练 函数 的 输出 ， 即 预测 函数 的 输入 。 
%id%: 代表 唯一 ID 列 (用 户 提 供 的 或 函数 生成 的 ) 。 
%prediction%: 代表 预测 函数 的 输出 ， 即 误差 度量 函数 的 输入 。 
%error%: 代表 误差 度量 函数 的 输出 。 


了 .了 本。 交叉 验证 示例 


我 们 将 调用 交叉 验证 函数 , 量化 弹性 网 络 正 则 化 回归 模型 的 准确 性 , 并 找 出 最 佳 的 正则 化 
参数 。 关 于 弹性 网 络 正则 化 的 说 明 参见 https://en.wikipedia.org/wiki/Elastic_net_regularization. 





1. 准备 输入 数据 

drop table if exists houses; 

-- 房屋 价格 表 

create table houses ( 
id serial not null, -- 自 增 序列 
tax integer, -- 税金 
bedroom real, -- 卧室 数 
bath real, -- 卫生 间 数 
price integer, -- 价格 
size integer, -- 使 用 面积 
lot integer -- 占 地 面积 


); 


insert into houses (tax, bedroom, bath, price, size, lot) values 
( 590, 2, 1, 50000, 770, 22100), 
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(1050, 3, 2, 85000, 1410, 12000), 
1 


20, 3, , 22500, 1060, 3500), 


( 870, 2, 2, 90000, 1300, 17500), 
(1320, 3, 2, 133000, 1500, 30000), 
(1350, 2, 1, 90500, 820, 25700), 


(2790, 3, 2.5, 260000, 2130, 25000), 
( 680, 2, 1, 142500, 1170, 22000), 
(1840, 3, 2, 160000, 1500, 19000), 
(3680, 4, 2, 240000, 2790, 20000), 
(1660, 3, 1, 87000, 1030, 17500), 
(1620, 3, 2, 118600, 1250, 20000), 
(3100, 3, 2, 140000, 1760, 38000), 
(2070, 2, 3, 148000, 1550, 14000), 
( 650, 3, 1.5, 65000, 1450, 12000); 


2. 创建 函数 执行 交叉 验证 


create or replace function check cv() 
returns void as $$ 


begin 


execute 'drop table if exists valid rst houses'; 

perform madlib.cross validation general( 

-- 训练 函数 

'madlib.elastic net train', 

-- 训练 函数 参数 

'($data$, $model$, (price>100000), "array[tax, bath, size, lot]", 
binomial, 1, lambda, true, null, fista, 


"(eta = 2, max stepsize = 2, use active set = t)", 
null, 2000, 1le-6}'::varchar[], 


-- 训练 函数 参数 数据 类 型 

'(varchar, varchar, varchar, varchar, varchar, double precision, 
double precision, boolean, varchar, varchar, varchar, varchar, integer, 
double precision}'::varchar[], 

-- 被 考察 参数 

'lambda', 

-- 被 考察 参数 值 

"{0.04, 0.08, 0.12, 0.16, 0.20, 0.24, 0.28, 0.32, 0.36}'::varchar[], 
-- 预测 函数 

'madlib.elastic net predict', 

-- 预测 函数 参数 

'($model$, $data$, %id%, tprediction%}'::varchar[], 

-- 预测 函数 参数 数据 类 型 

"{text, text, text, text}'::varchar[], 


-- 误差 度量 函数 


'madlib.misclassification avg', 
-- 误差 度量 函数 参数 
'($prediction$, $data$, %id%, 
-- 误差 度量 函数 参数 数据 类 型 
"{varchar, varchar, varchar, varchar, varchar}'::varchar[], 
-- 数据 表 


"houses', 
-- ID 列 


'id', 


-- id 是 否 随机 
false, 

-- 验证 结果 表 
'valid rst houses', 
-- 数据 列 
'(tax,bath,size,lot, price}'::varchar[], 


-- y 


3 
Ne 
end; 


$$ language plpgsql volatile; 


3. 执行 函数 并 查询 结果 


select check_cv(); 


(price>100000), %error%}'::varchar[], 


select * from valid_rst_houses order by lambda; 


error_rate_stddev 


c I EE EEE EES: 





结果 如 下 : 

lambda | error rate avg 
0.04 | 0.26666666666666666667 
0/:/0841501333333333339333333393 
07122[60:385333333333939333999 
0:26 1 0:53333333333333333333 
0.2 | 0.60000000000000000000 
0.24 | 0.60000000000000000000 
0.28 | 0.66666666666666666667 
0.32 | 0.66666666666666666667 
0.36 | 0.73333333333333333333 

(9 rows) 


0.1154700538379251529018297561003914911294 
0.1154700538379251529018297561003914911294 
0.1154700538379251529018297561003914911294 
0.2309401076758503058036595122007829822590 
0.2000000000000000000000000000000000000000 
0.2000000000000000000000000000000000000000 
0.2309401076758503058036595122007829822590 
0.2309401076758503058036595122007829822590 
0.1154700538379251529018297561003914911294 


上 面 的 查询 结果 表示 , 随 着 正则 化 参数 不 断 加 大 , 平均 误差 也 会 增加 ,而 且 当 正则 化 参数 


较 小 时 标准 差 也 较 小 。 因 此 得 出 结论 


， 用 0.04 作为 正则 化 参数 ， 将 得 到 较 好 的 预测 模型 。 
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27.4 we 


验证 对 于 由 训练 数据 集 生成 的 数据 挖掘 预测 模型 的 准确 性 非常 重要 。 在 模型 正式 投入 使 用 
前 必须 经 过 验证 过 程 。 交叉 验 证 是 常用 一 类 的 模型 验证 评估 方法 ,其 中 “K 折 交 叉 验 证 ”法 重 
复 多 次 执行 训练 和 验证 过 程 ， 每 次 训练 集 和 验证 集 发 生变 化 ， 有 助 于 验证 模型 的 有 效 性 。 
MADIib 提供 的 K 折 交叉 验证 函数 ， 可 用 于 大 部 分 MADlib 的 预测 模型 。 
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